Incidentes Asociados

Una cosa que me encanta de asistir a eventos de Queer in AI (o reuniones de la comunidad queer en general) es que puedo asumir que todos los que me rodean también son queer. Paso a un estado más cómodo y menos cauteloso. Y, a la inversa, me siento bien porque nadie asume que soy heterosexual. Sentirme visto de esa manera es un lujo raro, porque ser visible como una persona queer para mí normalmente es un acto en la cuerda floja: ¿cuánto puedo hacer señales para que otras personas queer me vean, pero no lo suficiente como para alertar a los homófobos?
Los sistemas de IA de texto a imagen entran en el delicado espacio de la representación queer como el proverbial toro en la cacharrería. Los comentaristas de los medios sociales y tradicionales (1) han señalado que DALL-E y otros son propensos a generar estereotipos e insultos. representaciones de personas marginadas; un problema que surge de datos de entrenamiento sesgados y que a menudo se aborda con soluciones poco entusiastas, como etiquetas de advertencia o negarse a mostrar contenido relacionado con identidades particulares. En su artículo “[Estereotipos y obscenidades: la (mala) representación de identidades no cisgénero mediante modelos de texto a imagen] (https://arxiv.org/pdf/2305.17072.pdf)”, Eddie Ugless profundiza en la intersección de la generación de imágenes de IA y la identidad no cisgénero y arroja resultados interesantes.
Eddie es estudiante de doctorado en la Universidad de Edimburgo y trabaja sobre prejuicios y rarezas en PNL con proyectos anteriores sobre análisis de sentimientos y grandes modelos de lenguaje. “La norma se considera neutral y casi invisible. Y cuando te sales de la norma, las cosas empiezan a ir mal”, afirma. No hace falta mucho para salirse de la norma en la que los sistemas de texto a imagen funcionan bien: Eddie y sus colaboradores descubrieron que agregar términos de identidad de género como "trans", "no binario" o "queer" a una imagen genera un estímulo. conduce a imágenes que parecen menos humanas, más estereotipadas y más sexualizadas que las imágenes de indicaciones sin estos términos.
Para complementar estos hallazgos, Eddie también realizó una encuesta entre 35 personas no cisgénero con diversos conocimientos previos en IA, preguntándoles su opinión sobre las imágenes generadas y sobre posibles estrategias de mitigación de daños. Sorprendentemente, las respuestas de la encuesta a las estrategias heurísticas de mitigación fueron muy negativas. "No esperaba que la gente se sintiera tan fuertemente al respecto", dice Eddie. “Traté de presentar las soluciones en un lenguaje muy neutral. [...] Pero la gente decía, ¿por qué diablos pensarías que esto es una buena idea?” Las posibles estrategias de mitigación heurística eran, por ejemplo, que los modelos ignoraran por completo los términos de identidad no cisgénero, ignoraran los términos pero agregaran una bandera o símbolo de identidad a la imagen, o mostraran un mensaje advirtiendo sobre la posibilidad de tergiversación. Ninguna de estas estrategias fue evaluada positivamente por los encuestados, quienes estaban firmemente convencidos de la idea de que, por omisión o advertencias, sus identidades debían ser tabú o hacerse invisibles. “Estamos acostumbrados a ver a la gente encontrar soluciones para nosotros sin ninguna discusión con la comunidad”, dice Eddie. “Las respuestas a la encuesta fueron muy apasionadas y espero que eso se refleje en el documento. De todos modos, no creo que ninguna de las soluciones sea buena, pero ahora tenemos pruebas de ello”.
Otra forma de mejorar el rendimiento de un modelo de texto a imagen sería agregar imágenes más diversas de personas no cisgénero a los datos de entrenamiento. Pero los encuestados también se mostraron indecisos acerca de esta estrategia, preguntándose sobre los problemas relacionados con la propiedad de los datos, especialmente con respecto a las imágenes de los pueblos indígenas. “Las imágenes [generadas por IA] de personas con dos espíritus eran simplemente terribles”, dice Eddie. “Era una mezcla de diferentes culturas indígenas vestidas de forma religiosa. A menudo terminaba pareciendo muy deshumanizado. Y uno de nuestros entrevistados mencionó la preocupación de que los géneros minoritarios de todo el mundo terminen siendo representados de esta manera tan exotificada, y solo con vestimentas religiosas y nunca como personas que se dedican a su día a día. Incluso si obtenemos más datos, podrían terminar siendo sólo más datos de situaciones muy particulares, y no necesariamente crear una mejor representación”.
La tergiversación está incorporada en los sistemas de conversión de texto a imagen, no sólo en el nivel de los conjuntos de entrenamiento. Después de todo, los sistemas de aprendizaje automático están diseñados para detectar patrones estadísticos en grandes cantidades de datos. Dado que la transfobia corre como un hilo conductor en todos los estratos de la sociedad, no sorprende que un modelo sometido a artefactos sociales como textos e imágenes la encuentre y reproduzca. Para el futuro del campo, Eddie espera enfoques que vayan más allá de más datos y modelos más grandes. "Estamos llegando al punto en el que podemos entrenar un sistema en Internet en su totalidad, pero todavía no será capaz de resolver algunas de estas cuestiones fundamentales para comprender realmente las cosas", afirma. “Creo que tendría sentido resolver los problemas. Algo así como históricamente se hacían las cosas en PNL, donde la gente trabajaba más en soluciones individuales. No pretendo saber exactamente cómo se debe hacer eso. De la misma manera que soy un abolicionista de prisiones, no necesariamente sé cuál es la mejor alternativa, solo sé que la alternativa con la que terminamos es mala. Y creo que está bien decir: lo que estamos haciendo ahora es malo, no sé qué aspecto tiene lo bueno, pero tenemos que empezar a buscar alternativas. Necesitamos estar preparados para lanzarnos a ellos. Porque cualquier cosa es mejor que lo que tenemos ahora”.