Incidents associés

Les seules vraies limites de DALL-E Mini sont la créativité de vos propres invites et son travail au pinceau étrange. Le [générateur d'images Internet IA] accessible à tous (https://huggingface.co/spaces/dalle-mini/dalle-mini) peut évoquer des approximations floues, tordues et fondantes de n'importe quel scénario que vous pouvez imaginer. Des cauchemars de Seinfeld ? Vous compris. Croquis d'animaux dans la salle d'audience, véhicules et de notables dans [variant](https://knowyourmeme.com/photos/2383847 -dall-e-mini-craiyon) combinaisons ? Très facile. Jamais vu [monstres d'horreur](https://twitter.com/Brainmage/status/1538111384390619136?ref_src=twsrc%5Etfw%7Ctwcamp%5Etweetembed%7Ctwterm%5E1538111384390619136%7Ctwgr%5E%7Ctwcon%5Es1_&ref_ur 2Fadmin.iflscience.qa%2F) de l'esprit des abrutis. Bien sûr, peu importe.
Mais ne donnez littéralement rien à DALL-E Mini, et il révèle rapidement les limites de ses propres "imaginations". Sans direction ni orientation, le modèle d'IA semble bloqué. Sans aucune invite, le programme vous rendra sans aucun doute l'image d'une femme en sari (un vêtement couramment porté dans toute l'Asie du Sud.)
Même le développeur de l'outil, Boris Dayma, ne sait pas exactement pourquoi, selon to reporting from Rest of World. "C'est assez intéressant et je ne sais pas pourquoi cela se produit", a-t-il déclaré à Rest of World à propos du phénomène.
Qu'est-ce que DALL-E Mini ?
DALL-E Mini a été inspiré par DALL-E 2, un puissant générateur d'images d'OpenAI. Les images créées par DALL-E 2 sont beaucoup plus réalistes que celles que "mini" peut faire, mais le compromis est qu'il nécessite trop de puissance de calcul pour être manipulé par n'importe quel ancien internaute. Il y a une capacité limitée et une liste d'attente.
Dayma, non affilié à OpenAI, a donc choisi de créer sa propre version moins exclusive qui a été lancée en juillet 2021. Au cours des dernières semaines, elle est devenue extrêmement populaire. Le programme gère environ 5 millions de demandes chaque jour, a déclaré Dayma au Reste du monde. Lundi, DALL-E Mini a été renommé Craiyon et déplacé vers un nouveau nom de domaine, sur l'insistance d'OpenAI.
Comme tout autre modèle d'intelligence artificielle, DALL-E Mini/Craiyon crée des sorties basées sur des entrées de formation. Dans le cas de Mini, le programme a été formé sur un régime de 15 millions de paires d'images et de légendes, et 14 millions d'images supplémentaires, plus le chaos de l'internet ouvert.
Depuis le reste du monde :
Le mini-modèle DALL·E a été développé sur trois jeux de données principaux : jeu de données Conceptual Captions, qui contient 3 millions de paires d'images et de légendes ; Conceptual 12M, qui contient 12 millions de paires d'images et de légendes, et The [OpenAI's](https://github.com/openai/CLIP/blob/main/data /yfcc100m.md) corpus d'environ 15 millions d'images. Dayma et le mini co-créateur de DALL·E, Pedro Cuenca, ont noté que leur modèle a également été formé à l'aide de données non filtrées sur Internet, ce qui l'ouvre à des biais inconnus et inexplicables dans les ensembles de données qui peuvent se répercuter sur les modèles de génération d'images.
Et ces données sous-jacentes ont presque certainement quelque chose à voir avec le phénomène du sari. La situation du sari, si vous voulez.
Pourquoi DALL-E Mini se bloque-t-il sur Saris ?
Dayma a suggéré que les images de femmes sud-asiatiques en saris étaient peut-être fortement représentées dans ces ensembles de photos originaux qui alimentent DALL-E Mini. Et que la bizarrerie pourrait également avoir quelque chose à voir avec la longueur de la légende, car l'IA pourrait associer des invites de zéro caractère à de courtes descriptions d'images.
Cependant, Michael Cook, chercheur en intelligence artificielle à l'Université Queen Mary de Londres, a déclaré au reste du monde qu'il n'était pas si sûr de la théorie de la surreprésentation. "En règle générale, les systèmes d'apprentissage automatique ont le problème inverse - ils n'incluent en fait pas suffisamment de photos de personnes non blanches", a-t-il déclaré.
Au lieu de cela, Cook pense que l'origine pourrait résider dans un biais linguistique du processus de filtrage des données. "Une chose qui m'est venue à l'esprit en lisant, c'est que beaucoup de ces ensembles de données suppriment le texte qui n'est pas anglais", a-t-il déclaré. Les légendes d'image qui incluent l'hindi, par exemple, pourraient être supprimées, laissant des images sans texte ou étiquettes explicatifs à l'appui flottant librement dans la soupe d'IA primordiale, a-t-il expliqué.