Incidentes Asociados
La aplicación ciega del aprendizaje automático corre el riesgo de amplificar los sesgos presentes en los datos. Nos enfrentamos a un peligro de este tipo con la incrustación de palabras, un marco popular para representar datos de texto como vectores que se ha utilizado en muchas tareas de procesamiento de lenguaje natural y aprendizaje automático. Mostramos que incluso las incrustaciones de palabras entrenadas en los artículos de Google News exhiben estereotipos de género femenino/masculino en un grado inquietante. Esto genera preocupaciones porque su uso generalizado, como lo describimos, a menudo tiende a amplificar estos sesgos. Geométricamente, el sesgo de género primero se muestra capturado por una dirección en la palabra incrustación. En segundo lugar, se muestra que las palabras de género neutral son linealmente separables de las palabras de definición de género en la incrustación de palabras. Usando estas propiedades, proporcionamos una metodología para modificar una incrustación para eliminar los estereotipos de género, como la asociación entre las palabras recepcionista y mujer, mientras se mantienen asociaciones deseadas, como entre las palabras reina y mujer. Definimos métricas para cuantificar los sesgos de género directos e indirectos en las incrustaciones y desarrollamos algoritmos para "desviar" la incrustación. Utilizando la evaluación de trabajadores colectivos, así como los puntos de referencia estándar, demostramos empíricamente que nuestros algoritmos reducen significativamente el sesgo de género en las incrustaciones al tiempo que preservan sus propiedades útiles, como la capacidad de agrupar conceptos relacionados y resolver tareas de analogía. Las incrustaciones resultantes se pueden usar en aplicaciones sin amplificar el sesgo de género.