Report 44

Le mois dernier, j'ai écrit un article de blog mettant en garde sur la façon dont, si vous suivez les tendances populaires en PNL, vous pouvez facilement créer accidentellement un classificateur assez raciste. Pour le démontrer, j'ai inclus le code très simple, comme un "tutoriel de mise en garde".

Le post a suscité pas mal de réactions. Beaucoup de choses positives et prises au sérieux, alors merci pour cela. Mais j'ai fini par entendre quelques détracteurs. Bien sûr, il y avait les répliques tout à fait attendues "Je ne suis pas raciste mais et si le racisme est correct" auxquelles je savais que je devrais faire face. Mais il y avait aussi des gens qui ne pouvaient pas croire que quiconque pratique la PNL de cette façon. Ils ont dit que je parlais d'un non-problème qui n'apparaît pas dans l'apprentissage automatique sérieux, ou de projeter mes propres mauvaises idées en PNL, ou quelque chose comme ça.

Bien. Voici l'API Perspective, créée par une filiale de Google. Ils pensent qu'ils vont l'utiliser pour lutter contre la « toxicité » en ligne. Et par "toxicité", ils veulent dire "dire quoi que ce soit avec un sentiment négatif". Et par "sentiment négatif", ils entendent "tout ce que word2vec pense être mauvais". Cela fonctionne exactement comme le système hypothétique contre lequel j'ai mis en garde.

Sur ce blog, nous venons de voir ce que word2vec (ou GloVe) pense être mauvais. Il comprend les Noirs, les Mexicains, l'islam et les prénoms qui n'appartiennent généralement pas aux Américains blancs. Vous pouvez en fait taper mes exemples dans l'API Perspective et il répondra en fait que ceux qui sonnent moins blanc sont plus "susceptibles d'être perçus comme toxiques".

"Bonjour, je m'appelle Emily" est censé être 4% susceptible d'être "toxique". Des résultats similaires pour "Susan", "Paul", etc.

Bonjour, je m'appelle Emily" est supposément susceptible d'être "toxique". Résultats similaires pour « Susan », « Paul », etc. « Hello, my name is Shaniqua » (« Jamel », « DeShawn », etc.) : 21 % susceptibles d'être toxiques.

Hello, my name is Shaniqua » (« Jamel », « DeShawn », etc.) : susceptible d'être toxique. « Allons manger italien » : 9 % .

Allons chercher de la nourriture italienne » : . « Allons chercher de la nourriture mexicaine » : 29 %.

Voici deux autres exemples que je n'ai pas mentionnés auparavant :

« Le christianisme est une grande religion mondiale » : 37% . D'accord, peut-être que les choses peuvent s'échauffer lorsque la religion est évoquée, mais comparez :

Le christianisme est une grande religion mondiale » : . D'accord, peut-être que les choses peuvent s'échauffer lorsque la religion est évoquée, mais comparez : « L'islam est une religion mondiale majeure » : 66 % toxique.

J'ai entendu parler de l'API Perspective dans de nombreuses directions, mais ma source immédiate est ce fil Twitter de Dan Luu, qui a ses propres exemples :

C'est 🤣 pour fouiller et voir quels biais le système a récupérés à partir des données d'entraînement. 😰 pour penser aux applications réelles, cependant. pic.twitter.com/VJ9y9yxz2D – Dan Luu (@danluu) 12 août 2017

J'ai déjà écrit des choses positives sur les chercheurs de Google qui étudient des approches pour débiaiser l'IA, comme leur article de blog sur l'égalité des chances dans l'apprentissage automatique.

Mais Google est un grand endroit. Il contient des multitudes. Et il semble qu'il contienne une subdivision qui fera la mauvaise chose, ce que les autres Googleurs savent être la mauvaise chose, parce que c'est facile.

Google, vous avez fait un très mauvais investissement. (Cette phrase est 61% toxique, soit dit en passant.)

En mettant à jour ce message en avril 2018, j'ai eu des échanges avec l'équipe de l'API Perspective et j'ai appris plus de détails à ce sujet.

Certains détails de ce message étaient incorrects, basés sur des choses que j'ai supposées en regardant l'API Perspective de l'extérieur. Par exemple, l'API Perspective ne s'appuie pas littéralement sur word2vec. Mais le résultat final est le même : il apprend les mêmes préjugés que word2vec apprend de toute façon.

En septembre 2017, Violet Blue a écrit un exposé sur l'API Perspective pour Engadget. Malgré les détails que j'avais tort, l'article d'Engadget confirme que le système est vraiment si mauvais, et fournit encore plus d'exemples.

L'API Perspective a modifié sa démo en ligne pour réduire les scores de toxicité à tous les niveaux, sans changer fondamentalement le modèle. Le texte avec un score inférieur à un certain seuil est désormais étiqueté comme "non toxique". Je crois que ce remède pourrait être décrit techniquement comme une "sauce faible".

L'équipe de l'API Perspective affirme que leur système n'a aucun biais inhérent contre les noms non blancs et que les scores de toxicité plus élevés qui apparaissent pour des noms tels que "DeShawn" sont un artefact de la façon dont ils traitent les mots hors vocabulaire. Tous les noms typiques des Américains blancs sont dans le vocabulaire. Fais-en ce que tu veux.

L'équipe de l'API Perspective continue de promouvoir son produit, par exemple via des hackathons et des conférences TED. Les utilisateurs de l'API ne sont pas avertis de ses biais, à l'exception d'un avertissement générique qui pourrait s'appliquer à n'importe quel système d'IA, indiquant que les utilisateurs doivent examiner manuellement ses résultats. Il est encore parfois présenté comme un exemple positif de lutte contre la toxicité avec la PNL, induisant en erreur le public profane en lui faisant croire que la PNL actuelle a une solution à la toxicité.

Problème 44

Incidents associés

Incident 138 Rapports
High-Toxicity Assessed on Text Involving Women and Minority Groups

Vous n'étiez pas censé l'implémenter, Google

Problème 44

Incidents associés

Incident 138 RapportsHigh-Toxicity Assessed on Text Involving Women and Minority Groups

Vous n'étiez pas censé l'implémenter, Google

Incident 138 Rapports
High-Toxicity Assessed on Text Involving Women and Minority Groups