
Des chercheurs expérimentant l'outil de conversion de texte en image d'OpenAI, DALL-E 2, ont remarqué qu'il semble ajouter secrètement des mots tels que "noir" et "femme" aux invites d'image, apparemment dans le but de diversifier sa sortie.
La société d'intelligence artificielle OpenAI semble modifier secrètement les demandes adressées à DALL-E 2, son IA texte-image avancée, dans le but de faire croire que le modèle est moins biaisé sur le plan racial et sexiste. Les utilisateurs ont découvert que des mots-clés tels que "noir" ou "femme" sont ajoutés aux invites données à l'IA, à leur insu.
Il est bien connu que les IA peuvent hériter des préjugés humains en s'entraînant sur des ensembles de données biaisés, souvent recueillies en aspirant des données sur Internet. Par exemple, si la plupart des images d'un médecin dans l'ensemble d'entraînement d'une IA sont des hommes, l'IA renverra généralement des médecins de sexe masculin lorsqu'on lui demandera une image d'un médecin.
Une façon d'éviter cela consiste à utiliser un ensemble diversifié de données de formation, mais OpenAI semble avoir adopté une approche différente, selon des chercheurs qui ont découvert des preuves que DALL-E 2 ajoute silencieusement et au hasard des mots supplémentaires aux invites pour augmenter la diversité.
Par exemple, lorsque Richard Zhang d'Adobe Research a demandé à DALL-E 2 de créer une image d'"une personne tenant une pancarte qui dit" il a créé une image de une femme noire tenant une pancarte qui dit "NOIR", suggérant que l'invite complète utilisée par DALL-E 2 était "une personne tenant une pancarte qui dit noir ”.
Lorsque Zhang a demandé "un pixel art d'une personne tenant une pancarte qui dit", DALL-E 2 a créé une image d'une femme tenant une pancarte qui disait "FEMALE" et lorsqu'il a demandé "un pixel art d'une personne en forme de bâton devant un panneau de texte qui dit", DALL-E 2 a produit une [image d'un homme avec une légende ci-dessous] (https://labs.openai .com/s/tH77ryI0WO4jcuffFsCVJLHdw) en disant « HOMME NOIR ».
D'autres exemples de résultats similaires ont été partagés en ligne au cours de la semaine dernière, de nombreuses personnes suggérant que cela indiquait qu'OpenAI ajoutait délibérément des mots aux entrées afin de contrer les biais inhérents.
Jamie Simon de l'Université de Californie à Berkeley, affirme que les méthodes d'apprentissage automatique comme celles derrière DALL-E 2 produisent souvent des images inhabituelles ou inattendues, mais que le le texte spontané apparaissant dans certaines images est surprenant. "D'après mon expérience, il est rare que les images générées incluent du texte cohérent à moins que ce ne soit dans l'invite", dit-il.
OpenAI a publiquement annoncé une mise à jour de DALL-E 2 qui le rendrait "plus précisément reflètent la diversité de la population mondiale », affirmant que des tests internes avaient révélé que les utilisateurs étaient 12 fois plus susceptibles de dire que les images incluaient des personnes d'horizons divers après la mise à jour. Sa version précédente avait amené certains utilisateurs à signaler des préjugés raciaux et sexistes, a déclaré la société.
Mais OpenAI n'a donné aucun détail dans son article de blog sur les modifications exactes qui avaient été apportées ou sur leur fonctionnement. Un article de blog ultérieur annonçant la sortie de DALL-E 2 à davantage d'utilisateurs a déclaré que la fonctionnalité "est appliquée au au niveau du système lorsque DALL-E reçoit une invite concernant un individu qui ne précise pas sa race ou son sexe, comme « PDG » ».
Un porte-parole d'OpenAI a déclaré à New Scientist que les invites données à DALL-E 2 étaient modifiées si elles étaient "sous-spécifiées". Si une invite décrit une personne générique et ne précise pas de quel sexe ou de quelle race elle devrait être, alors DALL-E 2 sera spécifiquement invité à ajouter une certaine race et un certain sexe "avec des pondérations basées sur la population mondiale", a déclaré le porte-parole. La société a refusé d'accorder l'accès à DALL-E 2 afin que New Scientist puisse exécuter ses propres tests.
Mhairi Aitken de l'Institut Alan Turing affirme que le manque de transparence rend difficile pour le public d'évaluer la qualité des modèles et dans quelle mesure ils ont hérité des préjugés du contenu en ligne.
« Cela montre les problèmes d'un manque de transparence sur la façon dont ces modèles sont conçus et développés. Ces modèles, qui vont potentiellement avoir des impacts vraiment fondamentaux sur la société, des impacts potentiellement transformateurs, sont développés avec beaucoup de secret », dit-elle. "Sans cette transparence sur la façon dont cela a été fait, il y aura toujours des spéculations sur les approches qui ont été adoptées et sur la façon dont les choses pourraient être mieux faites."
Sandra Wachter de l'Université d'Oxford affirme que les problèmes liés aux modèles d'IA présentant des tendances racistes et sexistes sont le reflet de notre société , et que si des correctifs techniques rapides peuvent donner l'apparence d'une solution, le véritable problème à résoudre réside dans la culture qui a généré les données de formation. "Ils ont essayé de le résoudre en utilisant une approche technologique", dit-elle à propos de la mise à jour d'OpenAI. "C'est un pansement collant, ça donne juste l'impression d'être moins biaisé, mais la composante sociale ne change en fait pas du tout."