Incidentes Asociados

Recientemente, ha habido una creciente preocupación por el sesgo de la máquina, donde los modelos estadísticos entrenados crecen para reflejar asimetrías sociales controvertidas, como el sesgo de género o racial. Recientemente, se ha sugerido que un número significativo de herramientas de inteligencia artificial están sesgadas de manera perjudicial hacia alguna minoría, con informes de predictores de comportamiento criminal racista, Iphone X que no puede diferenciar entre dos personas asiáticas y fotos de Google que clasifican erróneamente a las personas negras como gorilas. Si bien un estudio sistemático de tales sesgos puede ser difícil, creemos que las herramientas de traducción automática se pueden explotar a través de lenguajes neutros en cuanto al género para abrir una ventana al fenómeno del sesgo de género en la IA. En este documento, comenzamos con una lista completa de puestos de trabajo de la Oficina de Estadísticas Laborales de EE. UU. (BLS, por sus siglas en inglés) y la usamos para construir oraciones en construcciones como "Él/Ella es un ingeniero" en 12 idiomas neutrales de género diferentes, como húngaro, chino, yoruba y varios otros. Traducimos estas oraciones al inglés utilizando la API de Google Translate y recopilamos estadísticas sobre la frecuencia de los pronombres femeninos, masculinos y de género neutral en el resultado traducido. Mostramos que GT exhibe una fuerte tendencia hacia los valores predeterminados masculinos, en particular para los campos vinculados a una distribución de género desequilibrada, como los trabajos STEM. Comparamos estas estadísticas con los datos de BLS para la frecuencia de participación femenina en cada puesto de trabajo, lo que demuestra que GT no logra reproducir una distribución real de trabajadoras. Proporcionamos evidencia experimental de que incluso si uno no espera en principio una distribución de género pronominal de 50:50, GT produce valores predeterminados masculinos con mucha más frecuencia de lo que se esperaría solo a partir de datos demográficos. Tenemos la esperanza de que este trabajo encienda un debate sobre la necesidad de aumentar las herramientas de traducción estadística actuales con técnicas de eliminación de sesgo que ya se pueden encontrar en la literatura científica.