Skip to Content
logologo
AI Incident Database
Open TwitterOpen RSS FeedOpen FacebookOpen LinkedInOpen GitHub
Open Menu
Découvrir
Envoyer
  • Bienvenue sur AIID
  • Découvrir les incidents
  • Vue spatiale
  • Vue de tableau
  • Vue de liste
  • Entités
  • Taxonomies
  • Soumettre des rapports d'incident
  • Classement des reporters
  • Blog
  • Résumé de l’Actualité sur l’IA
  • Contrôle des risques
  • Incident au hasard
  • S'inscrire
Fermer
Découvrir
Envoyer
  • Bienvenue sur AIID
  • Découvrir les incidents
  • Vue spatiale
  • Vue de tableau
  • Vue de liste
  • Entités
  • Taxonomies
  • Soumettre des rapports d'incident
  • Classement des reporters
  • Blog
  • Résumé de l’Actualité sur l’IA
  • Contrôle des risques
  • Incident au hasard
  • S'inscrire
Fermer

Problème 2299

Loading...
Rencontrez DALL-E, l'I.A. Qui dessine tout à votre commande
nytimes.com · 2022

SAN FRANCISCO - À OpenAI, l'un des laboratoires d'intelligence artificielle les plus ambitieux au monde, les chercheurs développent une technologie qui vous permet de créer des images numériques simplement en décrivant ce que vous voulez voir.

Ils l'appellent DALL-E en clin d'œil aux deux "WALL-E", le film d'animation de 2008 à propos d'un robot autonome , et Salvador Dalí, le peintre surréaliste.

OpenAI, soutenu par un financement d'un milliard de dollars de Microsoft, ne partage pas encore la technologie avec le grand public Publique. Mais un après-midi récent, Alex Nichol, l'un des chercheurs derrière le système, a démontré comment cela fonctionne.

Lorsqu'il a demandé "une théière en forme d'avocat", en tapant ces mots sur un écran d'ordinateur en grande partie vide, le système a créé 10 images distinctes d'une théière d'avocat vert foncé, certaines avec des noyaux et d'autres sans. "DALL-E est bon pour les avocats", a déclaré M. Nichol.

DALL-E a généré cette image à partir d'une commande pour "chats jouant aux échecs".Crédit...OpenAI

Lorsqu'il a tapé "des chats jouant aux échecs", il a placé deux chatons pelucheux de chaque côté d'un plateau de jeu à carreaux, 32 pièces d'échecs alignées entre eux. Lorsqu'il a convoqué "un ours en peluche jouant de la trompette sous l'eau", une image montrait de minuscules bulles d'air s'élevant du bout de la trompette de l'ours vers la surface de l'eau.

DALL-E peut également éditer des photos. Lorsque M. Nichol a effacé la trompette de l'ours en peluche et a demandé une guitare à la place, une guitare est apparue entre les bras poilus.

Une équipe de sept chercheurs a passé deux ans à développer la technologie, qu'OpenAI prévoit d'offrir à terme comme un outil pour des personnes comme les graphistes, fournissant de nouveaux raccourcis et de nouvelles idées lors de la création et de l'édition d'images numériques. Les programmeurs informatiques utilisent déjà Copilot, un outil basé sur une technologie similaire d'OpenAI, pour générer des extraits de code logiciel.

Mais pour de nombreux experts, DALL-E est inquiétant. À mesure que ce type de technologie continue de s'améliorer, disent-ils, cela pourrait aider à répandre la désinformation sur Internet, alimentant le type de campagnes en ligne qui ont peut-être contribué à influencer l'élection présidentielle de 2016.

"Vous pouvez l'utiliser pour de bonnes choses, mais vous pouvez certainement l'utiliser pour toutes sortes d'autres applications folles et inquiétantes, et cela inclut des contrefaçons profondes", comme [des photos et des vidéos trompeuses](https://www.nytimes.com/ 2019/11/24/technology/tech-companies-deepfakes.html), a déclaré Subbarao Kambhampati, professeur d'informatique à l'Arizona State University.

Il y a une demi-décennie, le leader mondial de l'I.A. les laboratoires ont construit des systèmes qui pourraient identifier des objets dans des images numériques et même [générer des images par eux-mêmes] (https://www.nytimes.com/interactive/2018/01/02/technology/ai-generated-photos.html), y compris des fleurs, des chiens, des voitures et des visages. Quelques années plus tard, ils ont construit des systèmes qui pourraient faire à peu près la même chose avec le langage écrit, résumant articles, répondre aux questions, générer des tweets et même écrire des articles de blog.

Maintenant, les chercheurs combinent ces technologies pour créer de nouvelles formes d'I.A. DALL-E est une avancée notable car il jongle à la fois avec le langage et les images et, dans certains cas, saisit la relation entre les deux.

"Nous pouvons désormais utiliser plusieurs flux d'informations croisés pour créer une technologie de mieux en mieux", a déclaré Oren Etzioni, directeur général de l'Allen Institute for Artificial Intelligence, un laboratoire d'intelligence artificielle à Seattle.

La technologie n'est pas parfaite. Lorsque M. Nichol a demandé à DALL-E de "mettre la tour Eiffel sur la lune", il n'a pas tout à fait saisi l'idée. Il a mis la lune dans le ciel au-dessus de la tour. Lorsqu'il a demandé "un salon rempli de sable", cela a produit une scène qui ressemblait plus à un chantier de construction qu'à un salon.

Mais lorsque M. Nichol a un peu peaufiné ses demandes, ajoutant ou soustrayant quelques mots ici ou là, cela a donné ce qu'il voulait. Lorsqu'il a demandé "un piano dans un salon rempli de sable", l'image ressemblait plus à une plage dans un salon.

DALL-E est ce que les chercheurs en intelligence artificielle appellent un réseau de neurones, qui est un système mathématique vaguement calqué sur le réseau de neurones du cerveau. C'est la même technologie qui reconnaît les commandes prononcées dans les smartphones et identifie la présence de piétons lorsque les voitures autonomes naviguent dans les rues de la ville.

Un réseau de neurones acquiert des compétences en analysant de grandes quantités de données. En identifiant des motifs dans des milliers de photos d'avocats, par exemple, il peut apprendre à reconnaître un avocat. DALL-E recherche des modèles en analysant des millions d'images numériques ainsi que des légendes de texte qui décrivent ce que chaque image représente. Il apprend ainsi à reconnaître les liens entre les images et les mots.

Lorsque quelqu'un décrit une image pour DALL-E, cela génère un ensemble de fonctionnalités clés que cette image peut inclure. Une caractéristique pourrait être la ligne au bord d'une trompette. Un autre pourrait être la courbe au sommet de l'oreille d'un ours en peluche.

Ensuite, un deuxième réseau de neurones, appelé modèle de diffusion, crée l'image et génère les pixels nécessaires pour réaliser ces caractéristiques. La dernière version de DALL-E, dévoilée mercredi avec un nouveau document de recherche décrivant le système, génère des images haute résolution qui, dans de nombreux cas, ressemblent à des photos.

Bien que DALL-E ne parvienne souvent pas à comprendre ce que quelqu'un a décrit et déforme parfois l'image qu'il produit, OpenAI continue d'améliorer la technologie. Les chercheurs peuvent souvent affiner les compétences d'un réseau de neurones en lui fournissant des quantités encore plus importantes de données.

Ils peuvent également construire des systèmes plus puissants en appliquant les mêmes concepts à de nouveaux types de données. L'Institut Allen a récemment créé un système capable d'analyser l'audio ainsi que les images et le texte. Après avoir analysé des millions de vidéos YouTube, y compris des pistes audio et des sous-titres, il a appris à identifier des moments particuliers dans des émissions de télévision ou un films, comme un chien qui aboie ou une porte qui se ferme .

Les experts pensent que les chercheurs continueront à perfectionner ces systèmes. En fin de compte, ces systèmes pourraient aider les entreprises à améliorer les moteurs de recherche, les assistants numériques et d'autres technologies courantes, ainsi qu'à automatiser de nouvelles tâches pour les graphistes, les programmeurs et d'autres professionnels.

Mais il y a des mises en garde à ce potentiel. L'I.A. les systèmes peuvent montrer des préjugés contre les femmes et les personnes de couleur, en partie parce que [ils apprennent leurs compétences à partir d'énormes pools de textes, d'images et d'autres données en ligne qui montrent des préjugés](https://www.nytimes.com/2021/03/15 /technologie/intelligence-artificielle-google-bias.html). Ils pourraient être utilisés pour générer de la pornographie, des discours de haine et d'autres contenus offensants. Et de nombreux experts pensent que la technologie finira par rendre si facile de créer de la désinformation, les gens devront être sceptiques quant à presque tout ce qu'ils voient en ligne.

« Nous pouvons falsifier du texte. Nous pouvons mettre du texte dans la voix de quelqu'un. Et nous pouvons forger des images et des vidéos », a déclaré le Dr Etzioni. "Il y a déjà de la désinformation en ligne, mais l'inquiétude est que cette désinformation atteigne de nouveaux niveaux."

OpenAI garde une laisse serrée sur DALL-E. Cela ne laisserait pas les étrangers utiliser le système par eux-mêmes. Il met un filigrane dans le coin de chaque image qu'il génère. Et bien que le laboratoire envisage d'ouvrir le système aux testeurs cette semaine, le groupe sera petit.

Le système comprend également des filtres qui empêchent les utilisateurs de générer des images qu'il juge inappropriées. Lorsqu'on lui a demandé "un cochon à tête de mouton", il a refusé de produire une image. La combinaison des mots «cochon» et «tête» a très probablement déclenché les filtres anti-intimidation d'OpenAI, selon le laboratoire.

"Ce n'est pas un produit", a déclaré Mira Murati, responsable de la recherche chez OpenAI. "L'idée est de comprendre les capacités et les limites et de nous donner la possibilité d'intégrer l'atténuation."

OpenAI peut contrôler le comportement du système de certaines manières. Mais d'autres à travers le monde pourraient bientôt créer une technologie similaire qui mettrait les mêmes pouvoirs entre les mains de presque n'importe qui. Travaillant à partir d'un document de recherche décrivant une première version de DALL-E, Boris Dayma, un chercheur indépendant à Houston, a déjà construit et publié une [version plus simple de la technologie](https://huggingface.co/spaces/flax-community /dalle-mini).

"Les gens doivent savoir que les images qu'ils voient peuvent ne pas être réelles", a-t-il déclaré.

Lire la source

Recherche

  • Définition d'un « incident d'IA »
  • Définir une « réponse aux incidents d'IA »
  • Feuille de route de la base de données
  • Travaux connexes
  • Télécharger la base de données complète

Projet et communauté

  • À propos de
  • Contacter et suivre
  • Applications et résumés
  • Guide de l'éditeur

Incidents

  • Tous les incidents sous forme de liste
  • Incidents signalés
  • File d'attente de soumission
  • Affichage des classifications
  • Taxonomies

2024 - AI Incident Database

  • Conditions d'utilisation
  • Politique de confidentialité
  • Open twitterOpen githubOpen rssOpen facebookOpen linkedin
  • e1b50cd