Incidentes Asociados
La inteligencia artificial y el aprendizaje automático se encuentran en un período de crecimiento asombroso. Sin embargo, existe la preocupación de que estas tecnologías se puedan utilizar, con o sin intención, para perpetuar los prejuicios y la injusticia que, lamentablemente, caracterizan a muchas instituciones humanas. Aquí mostramos por primera vez que los sesgos semánticos similares a los humanos resultan de la aplicación del aprendizaje automático estándar al lenguaje ordinario, el mismo tipo de lenguaje al que los humanos están expuestos todos los días. Reproducimos un espectro de sesgos humanos estándar expuestos por la prueba de asociación implícita y otros estudios psicológicos bien conocidos. Los replicamos utilizando un modelo de aprendizaje automático puramente estadístico ampliamente utilizado, a saber, la incrustación de palabras GloVe, entrenado en un corpus de texto de la Web. Nuestros resultados indican que el lenguaje mismo contiene huellas recuperables y precisas de nuestros sesgos históricos, ya sean estos moralmente neutrales en cuanto a insectos o flores, problemáticos en cuanto a raza o género, o incluso simplemente verídicos, reflejando el {\em status quo} para la distribución de género con respecto a carreras o nombres. Estas regularidades son capturadas por el aprendizaje automático junto con el resto de la semántica. Además de nuestros hallazgos empíricos relacionados con el lenguaje, también aportamos nuevos métodos para evaluar el sesgo en el texto, la prueba de asociación de incrustación de palabras (WEAT) y la prueba de asociación de hechos de incrustación de palabras (WEFAT). Nuestros resultados tienen implicaciones no solo para la IA y el aprendizaje automático, sino también para los campos de la psicología, la sociología y la ética humana, ya que plantean la posibilidad de que la mera exposición al lenguaje cotidiano pueda explicar los sesgos que replicamos aquí.