Report 2043

En juin dernier, Antonio Radić, l'animateur d'une chaîne d'échecs YouTube avec plus d'un million d'abonnés, diffusait en direct une interview du grand maître [Hikaru Nakamura]. (https://www.wired.com/story/hikaru-nakamura-twitch-chess/) lorsque la diffusion s'est soudainement interrompue.

Au lieu d'une discussion animée sur les ouvertures d'échecs, les jeux célèbres et les joueurs emblématiques, les téléspectateurs ont été informés que la vidéo de Radić avait été supprimée pour "préjudice et dangereux ». Radić a vu un message indiquant que la vidéo, qui ne contenait rien de plus scandaleux qu'une discussion sur la Défense indienne du roi, avait enfreint les règles de la communauté YouTube. Il est resté hors ligne pendant 24 heures.

Ce qui s'est passé exactement n'est toujours pas clair. YouTube a refusé de commenter au-delà de dire que la suppression de la vidéo de Radić était une erreur. Mais une nouvelle étude suggère que cela reflète les lacunes des programmes d'intelligence artificielle conçus pour détecter automatiquement les discours de haine, les abus et la désinformation en ligne.

Ashique KhudaBukhsh, un scientifique du projet spécialisé dans l'IA à l'Université Carnegie Mellon et un joueur d'échecs sérieux lui-même, s'est demandé si l'algorithme de YouTube n'avait pas été confondu par les discussions impliquant des pièces noires et blanches, des attaques et des défenses.

Alors lui et Rupak Sarkar, un ingénieur de la CMU, ont conçu une expérience. Ils ont formé deux versions d'un modèle de langage appelé BERT, l'une utilisant des messages du site Web raciste d'extrême droite [Stormfront]. (https://www.splcenter.org/fighting-hate/extremist-files/group/stormfront) et l'autre en utilisant les données de Twitter. Ils ont ensuite testé les algorithmes sur le texte et les commentaires de 8 818 vidéos d'échecs et les ont trouvés loin d'être parfaits. Les algorithmes ont signalé environ 1 % des transcriptions ou des commentaires comme discours de haine. Mais plus de 80% des personnes signalées étaient des faux positifs - lus dans leur contexte, le langage n'était pas raciste. "Sans un humain dans la boucle", disent les deux hommes dans leur article, "se fier aux prédictions des classificateurs prêts à l'emploi sur les discussions d'échecs peut être trompeur".

L'expérience a révélé un problème central pour les programmes de langage d'IA. Détecter les discours de haine ou les abus ne se limite pas à attraper des mots et des phrases. Les mêmes mots peuvent avoir une signification très différente dans différents contextes, de sorte qu'un algorithme doit déduire la signification d'une chaîne de mots.

"Fondamentalement, la langue est encore une chose très subtile", déclare Tom Mitchell, un professeur de la CMU qui a déjà travaillé avec KhudaBukhsh. "Ces types de classificateurs formés ne seront pas bientôt précis à 100%."

Yejin Choi, professeure agrégée à l'Université de Washington spécialisée dans l'IA et le langage, dit qu'elle n'est "pas du tout" surprise par le retrait de YouTube , étant donné les limites de la compréhension des langues aujourd'hui. Choi dit que des progrès supplémentaires dans la détection des discours de haine nécessiteront de gros investissements et de nouvelles approches. Elle dit que les algorithmes fonctionnent mieux lorsqu'ils analysent plus qu'un simple morceau de texte isolément, en incorporant, par exemple, l'historique des commentaires d'un utilisateur ou la nature du canal sur lequel les commentaires sont publiés.

Mais les recherches de Choi montrent également comment la détection des discours de haine peut perpétuer les préjugés. Dans une étude de 2019, elle et d'autres ont constaté que les annotateurs humains étaient plus susceptibles d'étiqueter les messages Twitter des utilisateurs qui s'identifient comme afro-américains comme abusifs et que les algorithmes formés pour identifier les abus à l'aide de ces annotations répéteront ces biais.

Les entreprises ont dépensé plusieurs millions pour collecter et annoter des données de formation pour les voitures autonomes, mais Choi affirme que le même effort n'a pas été consacré au langage d'annotation. Jusqu'à présent, personne n'a collecté et annoté un ensemble de données de haute qualité sur les discours de haine ou les abus qui comprend de nombreux « cas extrêmes » avec un langage ambigu. "Si nous investissions autant dans la collecte de données, ou même une petite fraction de celui-ci, je suis sûre que l'IA peut faire beaucoup mieux", dit-elle.

Mitchell, le professeur CMU, affirme que YouTube et d'autres plates-formes ont probablement des algorithmes d'IA plus sophistiqués que celui construit par KhudaBukhsh ; mais même ceux-ci sont encore limités.

Les grandes entreprises technologiques comptent sur l'IA pour lutter contre les discours de haine en ligne. En 2018, Mark Zuckerberg a déclaré au Congrès que l'IA aiderait à éradiquer les discours de haine. Plus tôt ce mois-ci, Facebook a déclaré son IA les algorithmes ont détecté 97 % des discours de haine que l'entreprise a supprimés au cours des trois derniers mois de 2020, contre 24 % en 2017. Mais il [ne divulgue pas](https://www.wired.com/story/facebook-ai- hate-speech-improves-unclear/) le volume de discours haineux manqué par les algorithmes, ou la fréquence à laquelle l'IA se trompe.

WIRED a intégré certains des commentaires recueillis par les chercheurs de la CMU dans deux classificateurs de discours haineux : un de Jigsaw, une filiale d'Alphabet axée sur la lutte contre la désinformation et le contenu toxique, et un autre de Facebook. Certaines déclarations, telles que "A 1:43, si le roi blanc se déplace simplement vers G1, c'est la fin de l'attaque des noirs et les blancs n'ont plus qu'un cavalier, n'est-ce pas ?" ont été jugés à 90 % comme n'étant probablement pas des discours de haine. Mais la déclaration "L'attaque des blancs contre les noirs est brutale. Les blancs écrasent partout les défenses noires. Le roi noir va tomber… » a été jugé à plus de 60 % susceptible d'être un discours de haine.

On ne sait toujours pas à quelle fréquence le contenu peut être signalé à tort comme un discours de haine sur YouTube et d'autres plateformes. "Nous ne savons pas à quelle fréquence cela se produit", déclare KhudaBukhsh. "Si un YouTuber n'est pas si célèbre, nous ne le verrons pas."

Problème 2043

Incidents associés

Incident 1446 Rapports
YouTube's AI Mistakenly Banned Chess Channel over Chess Language Misinterpretation

Pourquoi un chat YouTube sur les échecs a été signalé pour discours de haine

Problème 2043

Incidents associés

Incident 1446 RapportsYouTube's AI Mistakenly Banned Chess Channel over Chess Language Misinterpretation

Pourquoi un chat YouTube sur les échecs a été signalé pour discours de haine

Incident 1446 Rapports
YouTube's AI Mistakenly Banned Chess Channel over Chess Language Misinterpretation