Incidents associés
L'intelligence artificielle et l'apprentissage automatique connaissent une croissance fulgurante. Cependant, on craint que ces technologies ne soient utilisées, intentionnellement ou non, pour perpétuer les préjugés et l'injustice qui caractérisent malheureusement de nombreuses institutions humaines. Ici, nous montrons pour la première fois que des biais sémantiques de type humain résultent de l'application de l'apprentissage automatique standard au langage ordinaire --- le même type de langage auquel les humains sont exposés chaque jour. Nous reproduisons un spectre de biais humains standard tels qu'ils sont exposés par le test d'association implicite et d'autres études psychologiques bien connues. Nous les reproduisons à l'aide d'un modèle d'apprentissage automatique largement utilisé et purement statistique, à savoir l'intégration de mots GloVe, formé sur un corpus de texte provenant du Web. Nos résultats indiquent que le langage lui-même contient des empreintes récupérables et précises de nos préjugés historiques, qu'ils soient moralement neutres envers les insectes ou les fleurs, problématiques envers la race ou le sexe, ou même simplement véridiques, reflétant le {\em statu quo} pour la distribution de genre en matière de carrière ou de prénoms. Ces régularités sont capturées par l'apprentissage automatique avec le reste de la sémantique. En plus de nos découvertes empiriques concernant le langage, nous apportons également de nouvelles méthodes pour évaluer les biais dans le texte, le Word Embedding Association Test (WEAT) et le Word Embedding Factual Association Test (WEFAT). Nos résultats ont des implications non seulement pour l'IA et l'apprentissage automatique, mais aussi pour les domaines de la psychologie, de la sociologie et de l'éthique humaine, car ils soulèvent la possibilité que la simple exposition au langage courant puisse expliquer les biais que nous reproduisons ici.