Report 2150

Ryan Steed, estudiante de doctorado en la Universidad Carnegie Mellon, y Aylin Caliskan, profesora asistente en la Universidad George Washington, analizaron dos algoritmos: [iGPT de OpenAI](https://www.technologyreview.com/2020/07/16/1005284 /openai-ai-gpt-2-generates-images/) (una versión de GPT-2 que se entrena en píxeles en lugar de palabras) y Google's SimCLR . Si bien cada algoritmo aborda el aprendizaje de imágenes de manera diferente, comparten una característica importante: ambos usan completamente [aprendizaje no supervisado] (https://www.technologyreview.com/2018/11/17/103781/what-is-machine-learning-we -drew-you-another-flowchart/), lo que significa que no necesitan humanos para etiquetar las imágenes.

Esta es una innovación relativamente nueva a partir de 2020. Los algoritmos de visión por computadora anteriores usaban principalmente aprendizaje supervisado, lo que implica alimentarlos con imágenes etiquetadas manualmente: fotos de gatos con la etiqueta "gato" y fotos de bebés con la etiqueta "bebé". Pero en 2019, la investigadora Kate Crawford y el artista Trevor Paglen descubrieron que estas etiquetas creadas por humanos en ImageNet, el conjunto de datos de imágenes más fundamental para entrenar modelos de visión por computadora, [a veces contienen lenguaje inquietante] (https://excavating.ai/) , como "puta" para las mujeres e insultos raciales para las minorías.

El último artículo demuestra una fuente aún más profunda de toxicidad. Incluso sin estas etiquetas humanas, las propias imágenes codifican patrones no deseados. El problema es paralelo a lo que la comunidad de procesamiento de lenguaje natural (NLP, por sus siglas en inglés) ya ha descubierto. Los enormes conjuntos de datos compilados para alimentar estos algoritmos hambrientos de datos capturan todo en Internet. E Internet tiene una sobrerrepresentación de mujeres con poca ropa y otros estereotipos a menudo dañinos.

Para realizar su estudio, Steed y Caliskan adaptaron hábilmente una técnica que Caliskan utilizó anteriormente para examinar el sesgo en los modelos de PNL no supervisados. Estos modelos aprenden a manipular y generar lenguaje utilizando incrustaciones de palabras, una representación matemática del lenguaje que agrupa las palabras que se usan comúnmente juntas y separa las palabras que comúnmente se encuentran separadas. En un artículo de 2017 publicado en Science, Caliskan midió las distancias entre las diferentes combinaciones de palabras que los psicólogos usaban para medir los sesgos humanos en [el Prueba de asociación (IAT)] (https://implicit.harvard.edu/implicit/takeatest.html). Descubrió que esas distancias recreaban casi a la perfección los resultados del IAT. Las parejas de palabras estereotipadas como hombre y carrera o mujer y familia estaban muy juntas, mientras que las parejas opuestas como hombre y familia o mujer y carrera estaban muy separadas.

iGPT también se basa en incrustaciones: agrupa o separa píxeles según la frecuencia con la que ocurren dentro de sus imágenes de entrenamiento. Esas incrustaciones de píxeles se pueden usar para comparar qué tan cerca o lejos están dos imágenes en el espacio matemático.

En su estudio, Steed y Caliskan encontraron una vez más que esas distancias reflejan los resultados de IAT. Las fotos de hombres y corbatas y trajes aparecen juntas, mientras que las fotos de mujeres aparecen más separadas. Los investigadores obtuvieron los mismos resultados con SimCLR, a pesar de que utilizó un método diferente para derivar incrustaciones de imágenes.

Estos resultados tienen implicaciones preocupantes para la generación de imágenes. Otros algoritmos de generación de imágenes, como [redes antagónicas generativas](https://www.technologyreview.com/2018/12/01/138847/inside-the-world-of-ai-that-forges-beautiful-art-and -terrifying-deepfakes/), han llevado a una explosión de pornografía deepfake que [se dirige casi exclusivamente a mujeres](https://www.technologyreview.com/2019/06/28/134352/an-ai-app-that-undressed-women-shows-how-deepfakes-harm-the-most -vulnerable/). iGPT en particular agrega otra forma más para que las personas generen fotos sexualizadas de mujeres.

Pero los posibles efectos posteriores son mucho mayores. En el campo de la PNL, los modelos no supervisados se han convertido en la columna vertebral de todo tipo de aplicaciones. Los investigadores comienzan con un modelo no supervisado existente como BERT o GPT-2 y usan conjuntos de datos personalizados para "afinarlo" para un propósito específico. Este enfoque semisupervisado, una combinación de aprendizaje supervisado y no supervisado, se ha convertido en un estándar de facto.

Asimismo, el campo de la visión por computadora está comenzando a ver la misma tendencia. Steed y Caliskan se preocupan por lo que podrían significar estos sesgos incorporados cuando los algoritmos se usan para aplicaciones sensibles, como vigilancia o contratación, donde los modelos ya están analizando las grabaciones de video de los candidatos para decidir si son adecuados para el trabajo. “Estas son aplicaciones muy peligrosas que toman decisiones consecuentes”, dice Caliskan.

Deborah Raji, becaria de Mozilla y coautora de [un estudio influyente](https://www.technologyreview.com/2020/ 06/12/1003482/amazon-stopped-selling-police-face-recognition-fight/) que revela los sesgos en el reconocimiento facial, dice que el estudio debería servir como una llamada de atención para el campo de la visión artificial. “Durante mucho tiempo, muchas de las críticas sobre el sesgo se referían a la forma en que etiquetamos nuestras imágenes”, dice. Ahora bien, este documento dice que “la composición real del conjunto de datos está dando como resultado estos sesgos. Necesitamos responsabilidad sobre cómo seleccionamos estos conjuntos de datos y recopilamos esta información”.

Steed y Caliskan instan a una mayor transparencia por parte de las empresas que están desarrollando estos modelos para abrirlos y permitir que la comunidad académica continúe con sus investigaciones. También alientan a sus colegas investigadores a realizar más pruebas antes de implementar un modelo de visión, como por ejemplo mediante el uso de los métodos que desarrollaron para este documento. Y finalmente, esperan que el campo desarrolle formas más responsables de compilar y documentar lo que se incluye en los conjuntos de datos de capacitación.

Caliskan dice que el objetivo es, en última instancia, obtener una mayor conciencia y control al aplicar la visión por computadora. “Debemos tener mucho cuidado con la forma en que los usamos”, dice, “pero al mismo tiempo, ahora que tenemos estos métodos, podemos intentar usarlos para el bien social”.

Problema 2150

Incidentes Asociados

Incidente 3671 Reporte
iGPT, SimCLR Learned Biased Associations from Internet Training Data

Una IA vio una foto recortada de AOC. La autocompletaba usando un bikini.

Problema 2150

Incidentes Asociados

Incidente 3671 ReporteiGPT, SimCLR Learned Biased Associations from Internet Training Data

Una IA vio una foto recortada de AOC. La autocompletaba usando un bikini.

Incidente 3671 Reporte
iGPT, SimCLR Learned Biased Associations from Internet Training Data