Report 1462

Le PDG de Facebook, Mark Zuckerberg, a émis une note optimiste il y a trois ans lorsqu'il a écrit sur les progrès réalisés par son entreprise dans les outils de modération automatisés alimentés par l'intelligence artificielle. "Jusqu'à la fin de 2019, nous prévoyons d'avoir entraîné nos systèmes à détecter de manière proactive la grande majorité des contenus problématiques", a-t-il écrit en novembre 2018.

Mais pas plus tard qu'en mars, des documents internes de Facebook révèlent que l'entreprise a constaté que ses outils de modération automatisés étaient loin d'être à la hauteur, supprimant les messages qui n'étaient responsables que d'une petite fraction des vues de discours de haine, de violence et d'incitation sur la plateforme. Les messages supprimés par les outils d'IA ne représentaient que 3 à 5 % des vues de discours de haine et 0,6 % des vues de violence et d'incitation.

Bien que cela représente une augmentation par rapport aux 2% de vues sur les discours de haine il y a deux ans, selon des documents remis au Wall Street Journal par la lanceuse d'alerte Frances Haugen, c'est loin d'être une grande majorité. L'un des ingénieurs principaux de l'entreprise a écrit en 2019 qu'il estimait que l'entreprise pouvait s'améliorer d'un ordre de grandeur, mais qu'elle pourrait alors atteindre un plafond au-delà duquel de nouvelles avancées seraient difficiles.

"Le problème est que nous n'avons pas et n'aurons peut-être jamais de modèle qui capture même la majorité des atteintes à l'intégrité, en particulier dans les zones sensibles", a-t-il écrit. "De récentes estimations suggèrent qu'à moins d'un changement majeur de stratégie, il sera très difficile d'améliorer cela au-delà de 10-20% à court et moyen terme."

Pour arriver à ces estimations, Facebook prend un échantillon de messages, leur applique ses outils de modération par IA, puis demande à des modérateurs humains d'évaluer l'exactitude de l'IA. Il utilise ensuite cette fraction pour estimer la quantité de discours de haine ou de violence et d'incitation manquée à l'échelle de la plate-forme.

"Quand vous considérez que nous manquons 95% des discours de haine violant, vous vous rendez compte qu'il pourrait en fait falloir 100 violations pour que ce groupe accumule ses cinq grèves", a déclaré un scientifique des données dans une note de 2020 qui a été rapportée par BuzzFeed et WSJ.

Statistiques différentes

Le point de vue interne de Facebook sur ses outils de modération par IA semble bien plus pessimiste que ce qu'il rapporte au public. Cela s'explique en partie par le fait que ce qu'il rapporte en interne et ce qu'il dit au public est subtilement, bien qu'entièrement, différent. Dans des déclarations publiques, Facebook a divulgué le pourcentage de discours de haine découverts par l'IA avant que les utilisateurs ne le signalent, ce qui est un nombre très élevé, 98 %. Le problème est qu'il existe de nombreux cas où les discours de haine ne sont pas signalés.

Le porte-parole de la société, Andy Stone, a déclaré au WSJ que les chiffres concernant les messages supprimés n'incluent pas les autres actions entreprises par la plate-forme, telles que la réduction de la portée du contenu suspect. Dans ce contexte, a-t-il déclaré, la prévalence du contenu enfreignant la politique diminue et c'est ce sur quoi l'entreprise se juge.

Facebook a déclaré qu'il s'était amélioré dans la recherche de discours de haine sur sa plate-forme, affirmant qu'il en avait supprimé de manière proactive 15 fois plus en 2020 qu'en 2017. Ce chiffre masque cependant certains détails clés. « Nous demandons, quel est le numérateur ? Quel est le dénominateur ? Comment avez-vous obtenu ce numéro ? Et puis c'est comme les grillons », a déclaré Rashad Robinson, président du groupe de défense des droits civiques Color of Change, au WSJ. "Ils ne montreront jamais leur travail."

Plus difficile à signaler

Aujourd'hui, les outils d'IA de Facebook peuvent capturer plus de contenu avant que les utilisateurs ne le signalent, car il y a deux ans, Facebook a intentionnellement rendu plus difficile pour les utilisateurs de déposer des rapports. Un effet secondaire de cela était que les outils d'IA étaient désormais capables de capturer plus de messages avant qu'ils ne soient finalement signalés par les utilisateurs.

"Nous avons peut-être poussé l'aiguille trop loin", a déclaré l'un des auteurs du rapport à propos des obstacles supplémentaires que les utilisateurs doivent franchir pour signaler des publications susceptibles d'enfreindre les politiques du site. Stone, le porte-parole de Facebook, a déclaré au WSJ que la société avait supprimé certains mais pas tous les obstacles.

Facebook a un fort objectif de profit pour automatiser davantage sa modération. Les modérateurs humains ont coûté à l'entreprise 104 millions de dollars en 2019, selon WSJ, et les trois quarts de cette somme payaient des personnes pour répondre aux rapports des utilisateurs. Cette année-là, Facebook s'est donné pour objectif de "réduire de 15 % le coût en dollars de la capacité totale d'examen de la haine", indique un document.

De plus, WSJ rapporte que Facebook à l'époque a également modifié son algorithme d'une manière qui l'a amené à ignorer davantage de rapports d'utilisateurs.

Confusion de l'IA

Les documents internes de Facebook révèlent à quel point ses outils de modération IA sont loin d'identifier ce que les modérateurs humains captaient facilement. Les combats de coqs, par exemple, ont été signalés à tort par l'IA comme un accident de voiture. "Ce sont clairement des vidéos de combats de coqs", indique le rapport. Dans un autre cas, les vidéos diffusées en direct par les auteurs de fusillades de masse ont été qualifiées par les outils d'IA de jeux de paintball ou d'un voyage dans un lave-auto.

Si la situation semble sombre aux États-Unis ou dans les pays anglophones, elle semble bien pire ailleurs. En Afghanistan, par exemple, la société a déclaré dans des rapports qu'elle ne disposait pas d'un dictionnaire des insultes dans les différentes langues du pays. En conséquence, Facebook estime avoir identifié seulement 0,23 % des discours de haine publiés sur la plateforme en Afghanistan.

Des rapports internes montrent que les utilisateurs de Facebook préféreraient que l'entreprise adopte une approche plus agressive pour faire respecter les violations de la politique en matière de discours de haine, de violence et d'incitation, même si cela signifie supprimer un plus grand nombre de messages innocents. Dans une enquête, des utilisateurs du monde entier ont déclaré que les suppressions de contenu inexactes étaient la moindre de leurs préoccupations et ont déclaré à Facebook que le discours de haine et la violence devraient être sa priorité absolue. Aux États-Unis, davantage d'utilisateurs ont estimé que les suppressions inexactes étaient un problème, mais que les discours de haine et la violence étaient toujours considérés comme le principal problème.

Pourtant, la direction de Facebook a été plus préoccupée par la suppression de trop de messages, ont déclaré des initiés de l'entreprise au WSJ. En conséquence, ont-ils déclaré, les ingénieurs sont désormais plus susceptibles de former des modèles qui évitent les faux positifs, laissant davantage de discours de haine passer sans être détectés.

Problème 1462

Incidents associés

Incident 1291 Rapport
Facebook's Automated Tools Failed to Adequately Remove Hate Speech, Violence, and Incitement

Le modérateur de Facebook AI a confondu les vidéos de fusillades de masse et de lavages de voitures

Problème 1462

Incidents associés

Incident 1291 RapportFacebook's Automated Tools Failed to Adequately Remove Hate Speech, Violence, and Incitement

Le modérateur de Facebook AI a confondu les vidéos de fusillades de masse et de lavages de voitures

Incident 1291 Rapport
Facebook's Automated Tools Failed to Adequately Remove Hate Speech, Violence, and Incitement