Report 1415

Selon une enquête du Pew Center de 2019, la majorité des personnes interrogées pensent que le ton et la nature du débat politique aux États-Unis sont devenus plus négatifs et moins respectueux. Cette observation a motivé les scientifiques à étudier la civilité ou son absence dans le discours politique, en particulier à la télévision. Compte tenu de leur capacité à analyser le langage à grande échelle, on pourrait supposer que les systèmes d'IA et d'apprentissage automatique pourraient être en mesure de contribuer à ces efforts. Mais des chercheurs de l'Université de Pennsylvanie ont découvert qu'au moins un outil, l'API Perspective de Jigsaw, n'est clairement pas à la hauteur de la tâche.

L'incivilité est plus subtile et nuancée que la toxicité, par exemple, qui comprend les insultes d'identité, les grossièretés et les menaces de violence. Bien que la détection des incivilités soit une tâche bien établie dans l'IA, elle n'est pas bien normalisée, le degré et le type d'incivilité variant selon les ensembles de données.

Les chercheurs ont étudié Perspective – une API alimentée par l'IA pour la modération de contenu développée par Jigsaw, l'organisation travaillant sous la société mère de Google Alphabet pour lutter contre la cyberintimidation et la désinformation – en partie à cause de son utilisation généralisée. Des organisations médiatiques telles que le New York Times, Vox Media, OpenWeb et Disqus l'ont adopté, et il traite actuellement 500 millions de demandes par jour.

Pour évaluer la capacité de Perspective à repérer les incivilités, les chercheurs ont construit un corpus contenant 51 transcriptions de PBS NewsHour, The Rachel Maddow Show de MSNBC et Hannity de Fox News. Les annotateurs ont lu chaque transcription et identifié les segments qui semblaient particulièrement incivils ou civils, les évaluant sur une échelle de dix points pour des mesures telles que "poli/impoli", "amical/hostile", "coopératif/querelleur" et "calme/ agité." Les scores et les sélections des annotateurs ont été combinés pour obtenir un score de civilité pour chaque extrait entre 1 et 10, où 1 est le plus civil et 10 le moins civil possible.

Après avoir exécuté les extraits de transcription annotés via l'API Perspective, les chercheurs ont découvert que l'API n'était pas suffisamment sensible pour détecter les différences de niveaux d'incivilité pour les notes inférieures à six. Les scores de perspective ont augmenté pour des niveaux d'incivilité plus élevés, mais les scores d'incivilité de l'annotateur et de la perspective ne concordaient que dans 51 % des cas.

"Globalement, pour les informations diffusées, Perspective ne peut pas reproduire la perception d'incivilité des gens", écrivent les chercheurs. "En plus de l'incapacité à détecter le sarcasme et le snark, il semble y avoir un problème de surestimation de l'incivilité dans PBS et FOX [programming]."

Dans un test ultérieur, les chercheurs ont échantillonné des milliers de mots de chaque transcription, rassemblant un total de 2 671, qu'ils ont transmis à Perspective pour prédire l'incivilité. Les résultats montrent une tendance problématique : Perspective a tendance à étiqueter certaines identités – y compris « gay », « afro-américain », « musulman » et « islam », « juif », « femmes » et « féminisme » et « féministe » – comme toxique. De plus, l'API signale par erreur des mots liés à la violence et à la mort (par exemple, « mourir », « tuer », « tirer », « prostitution », « pornographie », « sexuel ») même en l'absence d'incivilité, ainsi que des mots qui dans un contexte pourrait être toxique mais dans un autre pourrait faire référence à un nom (par exemple, "Dick").

D'autres auditeurs ont affirmé que Perspective ne modère pas les discours haineux et toxiques de manière égale entre les groupes de personnes. Une étude publiée par des chercheurs de l'Université d'Oxford, de l'Institut Alan Turing, de l'Université d'Utrecht et de l'Université de Sheffield a révélé que l'API Perspective lutte particulièrement contre les dénonciations de haine qui citent le discours de haine d'autrui ou y font directement référence. Une étude antérieure de l'Université de Washington publiée en 2019 a révélé que Perspective était plus susceptible d'étiqueter «l'anglais aligné sur les noirs» offensant par rapport à «l'anglais aligné sur les blancs».

Pour sa part, Jigsaw a récemment déclaré à VentureBeat qu'il avait fait et continuait de faire des progrès pour atténuer les biais de ses modèles.

Les chercheurs affirment que leurs travaux mettent en évidence les lacunes de l'IA lorsqu'elle est appliquée à la tâche de détection de civilité. Bien qu'ils croient que les préjugés contre des groupes comme les musulmans et les Afro-Américains peuvent être atténués grâce à des techniques « axées sur les données », ils s'attendent à ce que la classification correcte des cas extrêmes comme le sarcasme nécessite le développement de nouveaux systèmes.

« Le travail que nous avons présenté était motivé par le désir d'appliquer des méthodes prêtes à l'emploi de prédiction de la toxicité pour analyser la civilité dans l'actualité américaine. Ces méthodes ont été développées pour détecter les commentaires grossiers, irrespectueux ou déraisonnables susceptibles de vous faire quitter la discussion dans un forum en ligne », ont écrit les coauteurs. "Nous constatons que l'incapacité de Perspective à différencier les niveaux d'incivilité est en partie due aux fausses corrélations qu'il a formées entre certains mots non offensants et l'incivilité. Beaucoup de ces mots sont liés à l'identité. Notre travail facilitera les futurs efforts de recherche sur le débiaisation des prédictions automatisées.

Problème 1415

Incidents associés

Incident 138 Rapports
High-Toxicity Assessed on Text Involving Women and Minority Groups

L'IA affiche un parti pris et une inflexibilité dans la détection de la civilité, selon une étude

Problème 1415

Incidents associés

Incident 138 RapportsHigh-Toxicity Assessed on Text Involving Women and Minority Groups

L'IA affiche un parti pris et une inflexibilité dans la détection de la civilité, selon une étude

Incident 138 Rapports
High-Toxicity Assessed on Text Involving Women and Minority Groups