Report 3242

Une chose que j’aime dans le fait d’assister aux événements Queer in AI (ou aux rassemblements de la communauté queer en général), c’est que je peux supposer que tout le monde autour de moi est aussi queer. Je passe à un état plus confortable et moins surveillé. Et à l’inverse, ça fait du bien que personne ne suppose que je suis hétéro non plus. Se sentir vu de cette façon est un luxe rare, car pour moi, être visible en tant que personne queer est normalement un acte de funambule : jusqu'à quel point puis-je signaler pour que d'autres personnes queer me voient, mais pas suffisamment pour alerter les homophobes ?

Les systèmes de conversion texte-image d’IA entrent dans l’espace délicat de la représentation queer comme le proverbial taureau dans le magasin de porcelaine. Les commentateurs des médias sociaux et traditionnels (1) ont souligné que DALL-E et d'autres sont enclins à générer des stéréotypes et des insultes. des représentations de personnes marginalisées ; un problème qui découle de données de formation biaisées et qui est souvent résolu avec des solutions sans enthousiasme, comme des étiquettes d'avertissement ou le refus de produire du contenu lié à des identités particulières. Dans son article « Stereotypes and Smut : The (Mis)representation of Non-cisgender Identities by Text-to-Image Models », Eddie Ugless se penche en profondeur sur l'intersection de la génération d'images IA et de l'identité non cisgenre et aboutit à des résultats intéressants.

Eddie est doctorant à l'Université d'Édimbourg et travaille sur les préjugés et l'homosexualité en PNL avec des projets antérieurs sur l'analyse des sentiments et les grands modèles de langage. « La norme est considérée comme neutre et presque invisible. Et quand on sort de la norme, les choses commencent à mal tourner », dit-il. Il n'en faut pas beaucoup pour sortir de la norme dans laquelle les systèmes de conversion texte-image fonctionnent bien : Eddie et ses collaborateurs ont découvert que l'ajout de termes d'identité de genre comme « trans », « non binaire » ou « queer » à une invite de génération d'images conduit à des images moins humaines, plus stéréotypées et plus sexualisées que les images provenant d'invites sans ces termes.

Pour compléter ces résultats, Eddie a également mené une enquête auprès de 35 personnes non cisgenres ayant des connaissances variées en IA, leur demandant leur opinion sur les images générées et sur les stratégies possibles d'atténuation des dommages. Étonnamment, les réponses à l’enquête sur les stratégies heuristiques d’atténuation ont été très négatives. «Je ne m'attendais pas à ce que les gens soient aussi convaincus par cela», dit Eddie. « J'ai essayé de présenter les solutions dans un langage très neutre. [...] Mais les gens se demandaient : pourquoi diable pensez-vous que c'est une bonne idée ? » Les stratégies heuristiques d’atténuation possibles consistaient, par exemple, pour les modèles à ignorer entièrement les termes d’identité non cisgenres, à ignorer les termes mais à ajouter un drapeau ou un symbole d’identité à l’image, ou à afficher un message avertissant de la possibilité d’une fausse déclaration. Aucune de ces stratégies n'a été évaluée positivement par les personnes interrogées, qui étaient très attachées à l'idée que par omission ou par avertissement, leur identité était censée être taboue ou rendue invisible. « Nous sommes habitués à voir des gens proposer des solutions sans aucune discussion avec la communauté », déclare Eddie. « Les réponses à l'enquête ont été très passionnées et j'espère que cela s'est reflété dans le journal. De toute façon, je ne pense pas qu’aucune des solutions soit bonne, mais nous en avons désormais la preuve. »

Une autre façon d'améliorer les performances d'un modèle texte-image serait d'ajouter des images plus diverses de personnes non cisgenres aux données de formation. Mais les personnes interrogées se sont également montrées hésitantes face à cette stratégie, s'interrogeant sur les problèmes liés à la propriété des données, notamment en ce qui concerne les images des peuples autochtones. « Les images [générées par l'IA] de personnes bispirituelles étaient toutes tout simplement terribles », déclare Eddie. « C'était un méli-mélo de différentes cultures autochtones vêtues de vêtements religieux. Cela finissait souvent par paraître très déshumanisé. Et l’une de nos personnes interrogées a mentionné sa crainte que les genres minoritaires du monde entier finissent par être représentés de cette manière très exotisée, et uniquement en tenue religieuse et jamais en tant que personnes vaquant à leurs occupations quotidiennes. Même si nous obtenons plus de données, il se peut qu’il s’agisse simplement de davantage de données sur des situations très particulières, sans nécessairement créer une meilleure représentation.

Les fausses déclarations sont intégrées aux systèmes de conversion texte-image, et pas seulement au niveau des ensembles de formation. Après tout, les systèmes d’apprentissage automatique sont conçus pour détecter des modèles statistiques dans de grandes quantités de données. La transphobie étant un fil conducteur à travers toutes les couches de la société, il n’est pas surprenant qu’un modèle soumis à des artefacts sociétaux comme les textes et les images la trouve et la reproduise. Pour l’avenir du domaine, Eddie espère des approches allant au-delà de davantage de données et de modèles plus vastes. "Nous arrivons au point où nous pouvons former un système sur l'intégralité d'Internet, mais il ne sera toujours pas en mesure de résoudre certains de ces problèmes fondamentaux liés à la compréhension réelle des choses", dit-il. « Je pense qu’il serait logique de décomposer les problèmes. C'est un peu comme ça que les choses se faisaient historiquement en PNL, où les gens travaillaient davantage sur des solutions individuelles. Je ne prétendrai pas savoir exactement comment cela devrait être fait. De la même manière que je suis un abolitionniste des prisons, je ne sais pas nécessairement quelle est la meilleure alternative, je sais juste que l'alternative avec laquelle nous nous sommes retrouvés est mauvaise. Et je pense qu'il est normal de dire : ce que nous faisons actuellement est mauvais, je ne sais pas à quoi ressemble le bien, mais nous devons commencer à chercher des alternatives. Nous devons être prêts à nous lancer dans cette voie. Parce que tout est meilleur que ce que nous avons actuellement.

Problème 3242

Incidents associés

Incident 5791 Rapport
Harmful Stereotyping of Non-Cisgendered People via Text-to-Image Systems

Ne demandez pas à DALL-E de dessiner des personnes trans

Problème 3242

Incidents associés

Incident 5791 RapportHarmful Stereotyping of Non-Cisgendered People via Text-to-Image Systems

Ne demandez pas à DALL-E de dessiner des personnes trans

Incident 5791 Rapport
Harmful Stereotyping of Non-Cisgendered People via Text-to-Image Systems