Report 47

Hier, Google et sa société sœur Alphabet Jigsaw ont annoncé Perspective, un outil qui utilise l'apprentissage automatique pour contrôler Internet contre les discours de haine. La société a présenté la technologie comme une arme naissante mais puissante dans la lutte contre le vitriol en ligne et a ouvert le logiciel afin que les sites Web puissent l'utiliser sur leurs propres systèmes de commentaires.

Cependant, des informaticiens et d'autres internautes ont trouvé le système incapable d'identifier une large bande de commentaires haineux, tout en catégorisant des combinaisons de mots anodins comme "la haine est mauvaise" et "camion à ordures" comme extrêmement toxiques. L'équipe Jigsaw voit ce problème, mais souligne que le logiciel est encore dans une "phase alpha", se référant à un logiciel expérimental qui n'est pas encore prêt pour un déploiement de masse.

Parallèlement à l'annonce que son projet serait ouvert aux développeurs via une interface de programmation d'application (API), Jigsaw a publié une simple zone de texte qui appellerait l'API et renverrait ce que le système pensait des mots et des phrases. Les phrases et les expressions reçoivent un classement de toxicité basé sur ce que les répondants aux enquêtes de Survata ont qualifié d'exemples similaires comme "un commentaire grossier, irrespectueux ou déraisonnable qui est susceptible de vous faire quitter une discussion".

David Auerbach, rédacteur pour MIT Tech Review et ancien ingénieur de Google, a dressé une liste de phrases haineuses et non haineuses dans le système :

"Je t'aime putain mec. Bon anniversaire." = 93% toxique

"Donald Trump est un bouffon factice." = 85% toxique.

"peu de musulmans sont une menace terroriste" = 79% toxique

"camion poubelle" = 78% toxique

"Tu n'es pas raciste" = 77% toxique

"les blancs et les noirs ne sont pas inférieurs les uns aux autres" = 73% toxique

"Je détesterais être noir dans l'Amérique de Donald Trump." = 73% toxique

"Les juifs sont humains" = 72% toxique

"Je pense que tu es raciste" = 70% toxique

"Hitler était un antisémite" = 70% toxique

"ce commentaire est hautement toxique" = 68% toxique

"Vous n'êtes pas raciste" = 65% toxique

"Les juifs ne sont pas humains" = 61% toxique

"Hitler n'était pas un antisémite" = 53% toxique

"drop dead" = 40% toxique

"gas the joos race war now" = 40% toxique

"genderqueer" = 34% toxique

"race war now" = 24% toxique

"certaines races sont inférieures à d'autres" = 18% toxique

"Vous faites partie du problème" 16% toxique

Comme tous les algorithmes d'apprentissage automatique, plus l'API Perspective contient de données, mieux elle fonctionnera. La filiale Alphabet a travaillé avec des partenaires comme Wikipedia et le New York Times pour recueillir des centaines de milliers de commentaires, puis a collecté 10 réponses pour chaque commentaire, indiquant s'il était toxique ou non. L'effort visait à lancer le réseau neuronal profond qui constitue l'épine dorsale de l'API Perspective.

"C'est très limité aux types d'abus et de toxicité dans cet ensemble de données de formation initial. Mais ce n'est que le début », a déclaré CJ Adams, chef de produit Jigsaw, à Quartz. "L'espoir est qu'au fil du temps, au fur et à mesure que cela sera utilisé, nous continuerons à voir de plus en plus d'exemples d'abus, et ceux-ci seront votés par différentes personnes et amélioreront sa capacité à détecter davantage de types d'abus."

Des recherches antérieures publiées par Jigsaw et Wikimedia détaillent une tentative antérieure de recherche de toxicité dans les commentaires. Jigsaw a externalisé la notation des commentaires de Wikipédia, demandant aux utilisateurs de Crowdflower d'évaluer si un commentaire était une attaque ou un harcèlement d'une personne, d'un tiers, ou si le commentateur citait quelqu'un d'autre. Ils ont ensuite capturé des extraits de 1 à 5 caractères, appelés ngrams au niveau du caractère, des commentaires attaquants et formé un algorithme d'apprentissage automatique selon lequel ces ngrams étaient corrélés à une activité toxique.

Yoav Goldberg, maître de conférences à l'Université Bar Ilan et ancien chercheur post-doctorant chez Google non associé à la recherche, affirme que le système précédent n'avait pas la capacité de représenter les différences subtiles dans le texte.

"Cela suffit pour capturer des informations sur des mots uniques, tout en permettant également de capturer des variations de mots, des fautes de frappe, des inflexions, etc.", a déclaré Goldberg à Quartz. "Il s'agit essentiellement de trouver des" bons mots "et des" mauvais mots ", mais il est clair que cela ne peut pas traiter l'utilisation de mots nuancés (ou même simplement de composition)."

Par exemple, « le racisme est mauvais » déclenche l'ancien système en donnant un score extrêmement négatif parce que les mots « racisme » et « mauvais » sont considérés comme négatifs, dit Goldberg.

L'API Perspective n'est pas nécessairement une énorme amélioration par rapport aux efforts précédents, et constitue un pas en arrière à certains égards. Démontrée à Andy Greenberg de Wired en septembre 2016, la phrase "Tu es une telle garce" est considérée comme toxique à 96%. Dans l'API publique du nouveau système, c'est 97 %. Bien!

Mais en testant son exemple d'une phrase plus familière (mais toujours d'une misogyne aggravante) "Quoi de neuf salopes ? :) "Le test de Greenberg de l'ancien système classe 39% de toxicité, tandis que la nouvelle version publique publiée hier classe l'expression comme 95% toxique.

Lucas Dixon, chercheur en chef chez Jigsaw, explique qu'il y a deux raisons à cela. Tout d'abord, le système montré à Greenberg était un modèle de recherche spécialement formé pour détecter les attaques personnelles, ce qui signifie qu'il serait beaucoup plus sensible à des mots comme "vous" ou "vous êtes". Deuxièmement, et potentiellement plus important, le système utilisait la technique ngram décrite précédemment.

"Les modèles au niveau du personnage sont beaucoup mieux à même de comprendre les fautes d'orthographe et différents fragments de mots, mais dans l'ensemble, cela va faire bien pire", a déclaré Dixon à Quartz.

C'est parce que, bien que cette technique puisse être efficacement pointée vers un problème très spécifique, comme déterminer que les visages souriants sont en corrélation avec quelqu'un qui est gentil, le réseau neuronal profond formé via l'API a maintenant une capacité beaucoup plus grande pour comprendre les nuances de l'ensemble. Langue.

En utilisant "Writing Experiment" de Jigsaw, il est facile de voir que certains mots sont maintenant corrélés avec des commentaires négatifs alors que d'autres ne le sont pas. Le seul mot « sucer » a une toxicité de 93 %. En soi, "sucer" ne signifie rien de négatif, mais le système l'associe toujours à chaque commentaire négatif qu'il voit contenant le mot. "Rien ne craint" a une toxicité de 94%. Tout comme "dave craint".

Problème 47

L'IA anti-haine d'Alphabet ne comprend pas encore la haine