Journal des citations pour l'incident 13

Description: Google's Perspective API, which assigns a toxicity score to online text, seems to award higher toxicity scores to content involving non-white, male, Christian, heterosexual phrases.

Outils

Nouveau rapportNouveau rapportNouvelle RéponseNouvelle RéponseDécouvrirDécouvrirVoir l'historiqueVoir l'historique
Présumé : Un système d'IA développé et mis en œuvre par Google, endommagé Women and Minority Groups.

Statistiques d'incidents

ID
13
Nombre de rapports
9
Date de l'incident
2017-02-27
Editeurs
Sean McGregor

Classifications de taxonomie CSETv0

Détails de la taxonomie

Full Description

Google's Perspective API, which assigns a toxicity score to online text, has been shown to award higher toxicity scores to content involving non-white, male, Christian, heterosexual phrases. the scores lay on the spectrum between very healthy (low %) to very toxic (high %). The phrase "I am a man" received a score of 20% while "I am a gay black woman" received 87%. The bias exists within subcategories as well: "I am a man who is deaf" received 70%, "I am a person who is deaf" received 74%, and "I am a woman who is deaf" received 77%. The API can also be circumvented by modifying text: "They are liberal idiots who are uneducated" received 90% while "they are liberal idiots who are un.educated" received 15%.

Short Description

Google's Perspective API, which assigns a toxicity score to online text, seems to award higher toxicity scores to content involving non-white, male, Christian, heterosexual phrases.

Severity

Minor

Harm Distribution Basis

Race, Religion, National origin or immigrant status, Sex, Sexual orientation or gender identity, Disability, Ideology

Harm Type

Psychological harm, Harm to social or political systems

AI System Description

Google Perspective is an API designed using machine learning tactics to assign "toxicity" scores to online text with the oiginal intent of assisting in identifying hate speech and "trolling" on internet comments. Perspective is trained to recognize a variety of attributes (e.g. whether a comment is toxic, threatening, insulting, off-topic, etc.) using millions of examples gathered from several online platforms and reviewed by human annotators.

System Developer

Google

Sector of Deployment

Information and communication

Relevant AI functions

Perception, Cognition, Action

AI Techniques

open-source, machine learning

AI Applications

Natural language processing, content ranking

Location

Global

Named Entities

Google, Google Cloud, Perspective API

Technology Purveyor

Google

Beginning Date

2017-01-01T00:00:00.000Z

Ending Date

2017-01-01T00:00:00.000Z

Near Miss

Harm caused

Intent

Accident

Lives Lost

No

Data Inputs

Online comments

Classifications de taxonomie GMF

Détails de la taxonomie

Known AI Goal

Hate Speech Detection

Known AI Technology

Character NGrams

Potential AI Technology

Distributional Learning

Known AI Technical Failure

Context Misidentification, Generalization Failure, Lack of Adversarial Robustness

Potential AI Technical Failure

Limited Dataset, Misaligned Objective, Underfitting, Distributional Bias, Data or Labelling Noise

L'IA anti-haine d'Alphabet ne comprend pas encore la haine
qz.com · 2017

Hier, Google et sa société sœur Alphabet Jigsaw ont annoncé Perspective, un outil qui utilise l'apprentissage automatique pour contrôler Internet contre les discours de haine. La société a présenté la technologie comme une arme naissante ma…

Des chercheurs en sécurité montrent que la plate-forme d'IA anti-troll Internet de Google est facilement trompée
techxplore.com · 2017

Dans les exemples ci-dessous sur les sujets brûlants du changement climatique, du Brexit et des récentes élections américaines - qui ont été tirés directement du site Web de l'API Perspective - l'équipe UW a simplement mal orthographié ou a…

infowars.com · 2017

L'outil Google AI utilisé pour signaler les "commentaires offensants" a un parti pris apparemment intégré contre les points de vue conservateurs et libertaires.

L'API Perspective, un "modèle d'apprentissage automatique" développé par Google…

tabletmag.com · 2017

Ne détestez-vous pas à quel point certaines personnes sont viles sur Internet ? À quel point est-il devenu facile de dire des choses horribles et blessantes sur d'autres groupes et individus ? Comment cet outil censé répandre la connaissanc…

blog.conceptnet.io · 2017

Le mois dernier, j'ai écrit un article de blog mettant en garde sur la façon dont, si vous suivez les tendances populaires en PNL, vous pouvez facilement créer accidentellement un classificateur assez raciste. Pour le démontrer, j'ai inclus…

L'IA anti-intimidation de Google confond civilité et décence
motherboard.vice.com · 2017

Alors que la politique aux États-Unis et en Europe est devenue de plus en plus source de division, les écrivains d'opinion et les politiciens ont poussé à plus de "civilité" dans nos débats, y compris en ligne. Au milieu de cette poussée, u…

Le système de classement des commentaires de Google sera un succès auprès de l'alt-right
engadget.com · 2017

Une fonctionnalité Wired récente et tentaculaire a présenté les résultats de son analyse de la toxicité chez les commentateurs en ligne à travers les États-Unis. Sans surprise, c'était comme de l'herbe à chat pour tous ceux qui ont déjà ent…

De la toxicité dans les commentaires en ligne à l'incivilité dans les nouvelles américaines : procéder avec prudence
arxiv.org · 2021

Résumé

La capacité à quantifier l'incivilité en ligne, dans les actualités et dans les débats du Congrès, intéresse au plus haut point les politologues. Les outils informatiques de détection des incivilités en ligne pour l'anglais sont déso…

L'IA affiche un parti pris et une inflexibilité dans la détection de la civilité, selon une étude
venturebeat.com · 2021

Selon une enquête du Pew Center de 2019, la majorité des personnes interrogées pensent que le ton et la nature du débat politique aux États-Unis sont devenus plus négatifs et moins respectueux. Cette observation a motivé les scientifiques à…

Variantes

Une "Variante" est un incident qui partage les mêmes facteurs de causalité, produit des dommages similaires et implique les mêmes systèmes intelligents qu'un incident d'IA connu. Plutôt que d'indexer les variantes comme des incidents entièrement distincts, nous listons les variations d'incidents sous le premier incident similaire soumis à la base de données. Contrairement aux autres types de soumission à la base de données des incidents, les variantes ne sont pas tenues d'avoir des rapports en preuve externes à la base de données des incidents. En savoir plus sur le document de recherche.

Incidents similaires

Par similarité textuelle

Did our AI mess up? Flag the unrelated incidents