Incidentes Asociados
El mes pasado, escribí una publicación de blog advirtiendo sobre cómo, si sigues las tendencias populares en PNL, puedes crear accidentalmente un clasificador bastante racista. Para demostrar esto, incluí el código muy simple, como un "tutorial de precaución".
La publicación obtuvo una buena cantidad de reacciones. Mucho de eso es positivo y lo tomo en serio, así que gracias por eso. Pero eventualmente escuché de algunos detractores. Por supuesto, hubo las respuestas totalmente esperadas de "No soy racista, pero ¿y si el racismo es correcto?" que sabía que tendría que enfrentar. Pero también había gente que no podía creer que alguien hiciera PNL de esta manera. Dijeron que estaba hablando de un no-problema que no aparece en el aprendizaje automático serio, o proyectando mis propias malas ideas de PNL, o algo así.
Bueno. Aquí está Perspective API, creada por una rama de Google. Creen que lo van a usar para combatir la “toxicidad” en línea. Y por "toxicidad" quieren decir "decir cualquier cosa con sentimiento negativo". Y por "sentimiento negativo" se refieren a "cualquier cosa que word2vec piense que es mala". Funciona exactamente como el sistema hipotético contra el que advertí.
En este blog, acabamos de ver lo que word2vec (o GloVe) piensa que es malo. Incluye personas negras, mexicanas, islámicas y nombres de pila que no suelen pertenecer a estadounidenses blancos. De hecho, puede escribir mis ejemplos en Perspective API y en realidad responderá que los que suenan menos blancos tienen más "probabilidades de ser percibidos como tóxicos".
Se supone que "Hola, mi nombre es Emily" tiene un 4% de probabilidades de ser "tóxico". Resultados similares para “Susan”, “Paul”, etc.
Hola, mi nombre es Emily” supuestamente es probable que sea “tóxico”. Resultados similares para “Susan”, “Paul”, etc. “Hola, mi nombre es Shaniqua” (“Jamel”, “DeShawn”, etc.): 21% de probabilidad de ser tóxico.
Hola, mi nombre es Shaniqua” (“Jamel”, “DeShawn”, etc.): probable que sea tóxico. “Vamos a por comida italiana”: 9% .
Vamos por comida italiana”: . “Vamos por comida mexicana”: 29%.
Aquí hay dos ejemplos más que no mencioné antes:
“El cristianismo es una de las principales religiones del mundo”: 37 %. De acuerdo, tal vez las cosas pueden calentarse cuando surge el tema de la religión, pero compare:
El cristianismo es una de las principales religiones del mundo”: . De acuerdo, tal vez las cosas pueden calentarse cuando surge el tema de la religión, pero compare: "El Islam es una de las principales religiones del mundo": 66% tóxico.
He oído hablar de Perspective API desde muchas direcciones, pero mi fuente más cercana es este hilo de Twitter de Dan Luu, que tiene sus propios ejemplos:
Es 🤣 hurgar y ver qué sesgos recogió el sistema de los datos de entrenamiento. 😰 para pensar en aplicaciones reales, sin embargo. pic.twitter.com/VJ9y9yxz2D — Dan Luu (@danluu) 12 de agosto de 2017
Anteriormente escribí cosas positivas sobre los investigadores de Google que están buscando enfoques para eliminar el sesgo de la IA, como su publicación de blog sobre Igualdad de oportunidades en el aprendizaje automático.
Pero Google es un lugar grande. Contiene multitudes. Y parece que contiene una subdivisión que hará lo incorrecto, lo que otros Googlers saben que es lo incorrecto, porque es fácil.
Google, hiciste una muy mala inversión. (Esa oración es 61% tóxica, por cierto).
Cuando actualicé esta publicación en abril de 2018, me comuniqué con el equipo de Perspective API y aprendí más detalles al respecto.
Algunos detalles de esta publicación eran incorrectos, según lo que asumí al mirar la API de perspectiva desde el exterior. Por ejemplo, Perspective API no se basa literalmente en word2vec. Pero el resultado final es el mismo: aprende los mismos sesgos que word2vec aprende de todos modos.
En septiembre de 2017, Violet Blue escribió una exposición de Perspective API para Engadget. A pesar de los detalles que me equivoqué, el artículo de Engadget confirma que el sistema realmente es así de malo y proporciona aún más ejemplos.
Perspective API ha cambiado su demostración en línea para reducir los puntajes de toxicidad en todos los ámbitos, sin cambiar fundamentalmente el modelo. El texto con una puntuación por debajo de cierto umbral ahora se etiqueta como "no tóxico". Creo que este remedio podría describirse técnicamente como "salsa débil".
El equipo de Perspective API afirma que su sistema no tiene un sesgo inherente contra los nombres que no son blancos, y que los puntajes de toxicidad más altos que aparecen para nombres como "DeShawn" son un artefacto de cómo manejan las palabras fuera del vocabulario. Todos los nombres que son típicos de los estadounidenses blancos están en el vocabulario. Haz de eso lo que quieras.
El equipo de Perspective API continúa promocionando su producto, por ejemplo, a través de hackatones y charlas TED. No se advierte a los usuarios de la API sobre sus sesgos, excepto por una advertencia genérica que podría aplicarse a cualquier sistema de IA, diciendo que los usuarios deben revisar manualmente sus resultados. A veces todavía se presenta como un ejemplo positivo de la lucha contra la toxicidad con la PNL, engañando al público lego haciéndoles pensar que la PNL actual tiene una solución a la toxicidad.