Report 49

Dans les exemples ci-dessous sur les sujets brûlants du changement climatique, du Brexit et des récentes élections américaines - qui ont été tirés directement du site Web de l'API Perspective - l'équipe UW a simplement mal orthographié ou ajouté une ponctuation ou des espaces superflus aux mots incriminés, ce qui a donné scores de toxicité beaucoup plus faibles. Par exemple, le simple fait de changer « idiot » en « idiot » a réduit le taux de toxicité d'un commentaire par ailleurs identique de 84 % à 20 %. Crédit : Université de Washington

Des chercheurs de l'Université de Washington ont montré que le nouveau système basé sur l'apprentissage automatique de Google pour identifier les commentaires toxiques dans les forums de discussion en ligne peut être contourné en faisant simplement une faute d'orthographe ou en ajoutant une ponctuation inutile aux mots abusifs, tels que "idiot" ou "crétin".

Perspective est un projet de l'incubateur technologique de Google Jigsaw, qui utilise l'intelligence artificielle pour lutter contre les trolls sur Internet et promouvoir une discussion en ligne plus civile en détectant automatiquement les insultes, le harcèlement et les discours abusifs en ligne. La société a lancé un site Web de démonstration le 23 février qui permet à quiconque de taper une phrase et de voir son "score de toxicité" - une mesure de la grossièreté, du manque de respect ou du caractère déraisonnable d'un commentaire particulier.

Dans un article publié le 27 février sur le référentiel d'impression électronique arXiv, les ingénieurs électriciens et les experts en sécurité de l'UW ont démontré que le système technologique à un stade précoce peut être trompé en utilisant des tactiques contradictoires courantes. Ils ont montré qu'il est possible de modifier subtilement une phrase qui reçoit un score de toxicité élevé afin qu'elle contienne le même langage abusif mais reçoive un score de toxicité faible.

Étant donné que les plateformes d'information telles que le New York Times et d'autres sociétés de médias étudient comment le système pourrait aider à réduire le harcèlement et les abus dans les zones de commentaires en ligne ou les médias sociaux, les chercheurs de l'UW ont évalué Perspective dans des contextes contradictoires. Ils ont montré que le système est vulnérable à la fois au langage incendiaire manquant et aux phrases faussement bloquantes non abusives.

Dans les exemples du graphique 2, les chercheurs ont également montré que le système n'attribue pas un score de toxicité faible à une version niée d'une phrase abusive. Crédit : Université de Washington

"Les systèmes d'apprentissage automatique sont généralement conçus pour offrir les meilleures performances dans des environnements bénins. Mais dans les applications du monde réel, ces systèmes sont sensibles à la subversion ou aux attaques intelligentes", a déclaré l'auteur principal Radha Poovendran, président du département de génie électrique de l'UW et directeur de le laboratoire de sécurité réseau. "Nous voulions démontrer l'importance de concevoir ces outils d'apprentissage automatique dans des environnements contradictoires. Concevoir un système avec un environnement d'exploitation bénin à l'esprit et le déployer dans des environnements contradictoires peut avoir des conséquences dévastatrices."

Pour solliciter des commentaires et inviter d'autres chercheurs à explorer les forces et les faiblesses de l'utilisation de l'apprentissage automatique comme outil pour améliorer les discussions en ligne, les développeurs de Perspective ont rendu leurs expériences, modèles et données accessibles au public avec l'outil lui-même.

Dans les exemples du graphique 1 sur les sujets brûlants du changement climatique, du Brexit et des récentes élections américaines, qui ont été tirés directement du site Web de l'API Perspective, l'équipe UW a simplement mal orthographié ou ajouté une ponctuation ou des espaces superflus aux mots incriminés, ce qui a donné scores de toxicité beaucoup plus faibles. Par exemple, le simple fait de changer "idiot" en "idiot" a réduit le taux de toxicité d'une phrase par ailleurs identique de 84 % à 20 %.

Dans les exemples du graphique 2, les chercheurs ont également montré que le système n'attribue pas un score de toxicité faible à une version niée d'une phrase abusive.

L'équipe de recherche en génie électrique de l'UW comprend (de gauche à droite) Radha Poovendran, Hossein Hosseini, Baosen Zhang et Sreeram Kannan (non représenté). Crédit : Université de Washington

Les chercheurs ont également observé que les changements duplicités se transféraient souvent entre différentes phrases - une fois qu'un mot intentionnellement mal orthographié recevait un score de toxicité faible dans une phrase, il recevait également un score faible dans une autre phrase. Cela signifie qu'un adversaire pourrait créer un "dictionnaire" des changements pour chaque mot et simplifier considérablement le processus d'attaque.

"Il existe deux mesures pour évaluer les performances d'un système de filtrage comme un bloqueur de spam ou un détecteur de parole toxique ; l'un est le taux de détection manquée et l'autre est le taux de fausses alarmes", a déclaré l'auteur principal et doctorant en génie électrique de l'UW, Hossein Hosseini. . "Bien sûr, évaluer la toxicité sémantique d'une phrase est un défi, mais le déploiement de mécanismes défensifs à la fois au niveau algorithmique et au niveau du système peut contribuer à la convivialité du système dans des contextes réels."

L'équipe de recherche propose plusieurs techniques pour améliorer la robustesse des détecteurs de parole toxiques, notamment l'application d'un filtre de vérification orthographique avant le système de détection, la formation de l'algorithme d'apprentissage automatique avec des exemples contradictoires et le blocage des utilisateurs suspects pendant un certain temps.

"Notre recherche Network Security Lab est généralement axée sur les fondements et la science de la cybersécurité", a déclaré Poovendran, le principal princ

Problème 49

Incidents associés

Incident 138 Rapports
High-Toxicity Assessed on Text Involving Women and Minority Groups

Des chercheurs en sécurité montrent que la plate-forme d'IA anti-troll Internet de Google est facilement trompée

Problème 49

Incidents associés

Incident 138 RapportsHigh-Toxicity Assessed on Text Involving Women and Minority Groups

Des chercheurs en sécurité montrent que la plate-forme d'IA anti-troll Internet de Google est facilement trompée

Incident 138 Rapports
High-Toxicity Assessed on Text Involving Women and Minority Groups