Journal des citations pour l'incident 12

Description: Researchers from Boston University and Microsoft Research, New England demonstrated gender bias in the most common techniques used to embed words for natural language processing (NLP).

Outils

Nouveau rapportNouveau rapportNouvelle RéponseNouvelle RéponseDécouvrirDécouvrirVoir l'historiqueVoir l'historique
Présumé : un système d'IA développé par Microsoft Research , Boston University and Google et mis en œuvre par Microsoft Research and Boston University, endommagé Women and Minority Groups.

Statistiques d'incidents

ID
12
Nombre de rapports
1
Date de l'incident
2016-07-21
Editeurs
Sean McGregor

Classifications de taxonomie CSETv0

Détails de la taxonomie

Full Description

The most common techniques used to embed words for natural language processing (NLP) show gender bias, according to researchers from Boston University and Microsoft Research, New England. The primary embedding studied was a 300-dimensional word2vec embedding of words from a corpus of Google News texts, chosen because it is open-source and popular in NLP applications. After demonstrating gender bias in the embedding, the researchers show that several geometric features are associated with that bias which can be used to define the bias subspace. This finding allows them to create several debiasing algorithms.

Short Description

Researchers from Boston University and Microsoft Research, New England demonstrated gender bias in the most common techniques used to embed words for natural language processing (NLP).

Severity

Unclear/unknown

Harm Distribution Basis

Sex

AI System Description

Machine learning algorithms that create word embeddings from a text corpus.

Relevant AI functions

Unclear

AI Techniques

Vector word embedding

AI Applications

Natural language processing

Location

Global

Named Entities

Microsoft, Boston University, Google News

Technology Purveyor

Microsoft

Beginning Date

2016-01-01T00:00:00.000Z

Ending Date

2016-01-01T00:00:00.000Z

Near Miss

Unclear/unknown

Intent

Unclear

Lives Lost

No

Classifications de taxonomie CSETv1

Détails de la taxonomie

Harm Distribution Basis

sex

Sector of Deployment

professional, scientific and technical activities

arxiv.org · 2016

L'application aveugle de l'apprentissage automatique risque d'amplifier les biais présents dans les données. Nous sommes confrontés à un tel danger avec l'incorporation de mots, un cadre populaire pour représenter les données textuelles sou…

Variantes

Une "Variante" est un incident qui partage les mêmes facteurs de causalité, produit des dommages similaires et implique les mêmes systèmes intelligents qu'un incident d'IA connu. Plutôt que d'indexer les variantes comme des incidents entièrement distincts, nous listons les variations d'incidents sous le premier incident similaire soumis à la base de données. Contrairement aux autres types de soumission à la base de données des incidents, les variantes ne sont pas tenues d'avoir des rapports en preuve externes à la base de données des incidents. En savoir plus sur le document de recherche.