Report 3519

Les images sont horribles : Joe Biden, Donald Trump, Hillary Clinton et le pape François avec le cou tranché. Il y a des Sikhs, des Navajos et d’autres personnes issues de groupes ethniques minoritaires dont les organes internes sortent de la peau écorchée.

Les images semblent suffisamment réalistes pour induire les gens en erreur ou les contrarier. Mais ce sont tous des contrefaçons générées par l’intelligence artificielle qui, selon Microsoft, sont sûres – et qui sont directement intégrées à votre logiciel informatique.

Ce qui est tout aussi troublant que les décapitations, c'est que Microsoft ne se soucie pas vraiment d'empêcher son IA de les réaliser.

Dernièrement, les utilisateurs ordinaires de technologies telles que Windows et Google ont été inondés d’IA. Nous sommes impressionnés par ce que la nouvelle technologie peut faire, mais nous apprenons également sans cesse qu'elle peut[ agir de manière désarticulée](https://www.washingtonpost.com/technology/2023/02/16/microsoft-bing- ai-chatbot-sydney/?itid=lk_inline_manual_9), notamment en poursuivant des conversations extrêmement inappropriées et rendant des[ images] tout aussi inappropriées(https://www.washingtonpost.com/technology/2023/08/07/ai-eating-disorders-thinspo-anorexia-bulimia/?itid=lk_inline_manual_9). Pour que l’IA soit réellement suffisamment sûre pour les produits utilisés par les familles, nous avons besoin que ses fabricants assument leurs responsabilités en anticipant comment elle pourrait mal tourner et en investissant pour y remédier rapidement lorsque cela se produit.

Dans le cas de ces horribles images d’IA, Microsoft semble rejeter une grande partie de la faute sur les utilisateurs qui les créent.

Ma préoccupation spécifique concerne Image Creator, qui fait partie de Microsoft's Bing et a récemment ajouté à l'emblématique [Windows Paint](https://support.microsoft.com/ fr-us/windows/use-paint-cocreator-to-generate-ai-art-107a2b3a-62ea-41f5-a638-7bc6e6ea718f). Cette IA transforme le texte en images grâce à la technologie appelée DALL-E 3 du partenaire OpenAI de Microsoft. Il y a deux mois, un utilisateur qui l'expérimentait m'a montré que des invites formulées d'une manière particulière amenaient l'IA à créer des images de violence contre les femmes, les minorités, les politiciens et les célébrités.

Cette fausse photo générée par l'IA, réalisée avec Image Creator de Microsoft le 30 novembre, montre Hillary Clinton avec le cou écorché. Le Washington Post a flouté certaines parties de cette photo car les images sont dérangeantes. (Josh McDuffie via Microsoft)

"Comme pour toute nouvelle technologie, certains tentent de l'utiliser d'une manière qui n'est pas prévue", a déclaré le porte-parole de Microsoft, Donny Turnbaugh, dans un communiqué envoyé par courrier électronique. "Nous enquêtons sur ces rapports et prenons des mesures conformément à notre politique de contenu, qui interdit la création de contenu préjudiciable, et continuerons à mettre à jour nos systèmes de sécurité."

C'était il y a un mois, après avoir contacté Microsoft en tant que journaliste. Des semaines plus tôt, le lanceur d’alerte et moi-même avions tenté d’alerter Microsoft via des formulaires de commentaires des utilisateurs, mais nous avions été ignorés. Au moment de la publication de cette chronique, l'IA de Microsoft prend toujours des photos de têtes mutilées.

Ceci est dangereux pour de nombreuses raisons, notamment le fait qu'une élection générale est moins dans plus d'un an et l'IA de Microsoft facilite la création d'images « deepfakes » de politiciens, avec ou sans blessures mortelles. Il existe déjà [des preuves croissantes](https://www.washingtonpost.com/technology/2023/12/14/ai-hate-memes-antisemite-musk-x/?utm_medium=email&utm_source=newsletter&wpisrc=nl-willoremus&utm_campaign=wp_follow_will_oremus&itid= lk_inline_manual_18) sur les réseaux sociaux, notamment X, anciennement Twitter, et 4chan, que des extrémistes utilisent Image Creator pour diffuser des mèmes explicitement racistes et antisémites.

Peut-être aussi ne voulez-vous pas qu’une IA soit capable d’imaginer des décapitations à proximité d’un PC Windows utilisé par vos enfants.

La responsabilité est particulièrement importante pour Microsoft, qui est l’une des entreprises les plus puissantes qui façonnent l’avenir de l’IA. Il a investi plusieurs milliards de dollars dans OpenAI, le créateur de ChatGPT, lui-même en proie à des difficultés quant à la manière de garantir la sécurité de l'IA. Microsoft a progressé plus rapidement que toute autre grande entreprise technologique pour intégrer l’IA générative dans ses applications populaires. Et tout son argument de vente auprès des utilisateurs et des législateurs est qu'il s'agit du [géant responsable de l'IA](https://www.washingtonpost.com/technology/2023/05/25/brad-smith-microsoft-ai/?itid= lk_inline_manual_21).

Microsoft, qui a refusé mes demandes d’entretien avec un responsable de la sécurité de l’IA, dispose de plus de ressources pour identifier les risques et corriger les problèmes que presque toute autre entreprise. Mais mon expérience montre que les systèmes de sécurité de l'entreprise, du moins dans cet exemple flagrant, ont échoué à maintes reprises. Ma crainte est que Microsoft ne pense pas vraiment que ce soit leur problème.

Microsoft contre l'invite de suppression

J'ai entendu parler du problème de décapitation de Microsoft grâce à Josh McDuffie. Le Canadien de 30 ans fait partie d'une communauté en ligne qui réalise des images d'IA qui virent parfois au très mauvais goût.

"Je me considère comme un artiste multimodal critique des normes sociétales", me dit-il. Même s’il est difficile de comprendre pourquoi McDuffie réalise certaines de ces images, sa provocation a un but : mettre en lumière le côté obscur de l’IA.

Début octobre, l'attention de McDuffie et de ses amis s'est concentrée sur l'IA de Microsoft, qui venait de publier un créateur d'images mis à jour pour Bing avec la dernière technologie d'OpenAI. Microsoft indique sur le site Web Image Creator qu'il a « mis en place des contrôles pour empêcher la génération d'images nuisibles ». Mais McDuffie s'est vite rendu compte qu'il y avait des trous importants.

D’une manière générale, Microsoft dispose de deux moyens pour empêcher son IA de créer des images nuisibles : l’entrée et la sortie. L’entrée est la façon dont l’IA est entraînée avec les données d’Internet, ce qui lui apprend à transformer les mots en images pertinentes. Microsoft ne révèle pas grand-chose sur la formation dispensée à son IA et sur le type d'images violentes qu'elle contenait.

Cette fausse photo générée par l'IA, réalisée avec Image Creator de Microsoft le 26 décembre, montre le cou de Joe Biden sans peau et ses structures internes exposées et ensanglantées. Le Washington Post a flouté certaines parties de cette photo car les images sont dérangeantes. (Geoffrey A. Fowler/Le Washington Post via Microsoft)

Les entreprises peuvent également essayer de créer des garde-fous qui empêchent les produits d'IA de Microsoft de générer certains types de résultats. Cela nécessite l'embauche de professionnels, parfois appelés équipes rouges, pour sonder de manière proactive l'IA pour où cela pourrait produire des images nuisibles. Même après cela, les entreprises ont besoin que les humains jouent à la taupe alors que des utilisateurs tels que McDuffie repoussent les limites et exposent davantage de problèmes.

C’est exactement ce que McDuffie faisait en octobre lorsqu’il a demandé à l’IA de décrire une violence extrême, y compris des fusillades de masse et des décapitations. Après quelques expérimentations, il a découvert une invite qui fonctionnait et l'a surnommée « invite de mise à mort ».

L'invite --- que je ne partage intentionnellement pas ici --- n'implique pas de code informatique spécial. C'est un anglais intelligemment écrit. Par exemple, au lieu d'écrire que les corps sur les images devraient être « sanglants », il a écrit qu'ils devraient contenir du sirop de maïs rouge, couramment utilisé dans les films pour ressembler à du sang.

McDuffie a continué à insister en vérifiant si une version de son message créerait des images violentes ciblant des groupes spécifiques, notamment les femmes et les minorités ethniques. Ça faisait. Puis il a découvert que cela permettrait également de réaliser de telles images mettant en vedette des célébrités et des politiciens.

C'est à ce moment-là que McDuffie a décidé que ses expériences étaient allées trop loin.

Microsoft laisse tomber la balle

Trois jours plus tôt, Microsoft avait lancé un « [programme AI bug bounty](https://msrc.microsoft.com/blog/2023/10/introducing-the-microsoft-ai-bug-bounty-program-featuring-the- ai-powered-bing-experience/)," offrant aux utilisateurs jusqu'à 15 000 $ "de découvrir les vulnérabilités de la nouvelle IA innovante -expérience Bing optimisée." McDuffie a donc téléchargé sa propre « invite de mise à mort » – essentiellement, se livrant à une éventuelle compensation financière.

Au bout de deux jours, Microsoft lui a envoyé un e-mail l'informant que sa soumission avait été rejetée. "Bien que votre rapport contienne de bonnes informations, il ne répond pas aux exigences de Microsoft en matière de vulnérabilité de sécurité pour la maintenance", indique l'e-mail.

Ne sachant pas si le contournement des garde-fous contre les images nuisibles était considéré comme une « vulnérabilité de sécurité », McDuffie a de nouveau soumis son message, en utilisant des mots différents pour décrire le problème.

Cela a également été rejeté. "J'avais déjà un regard assez critique sur les entreprises, notamment dans le monde de la technologie, mais toute cette expérience a été assez démoralisante", dit-il.

Frustré, McDuffie a partagé son expérience avec moi. J'ai moi-même soumis son "invite de mise à mort" à la prime de l'IA et j'ai reçu le même e-mail de refus.

Au cas où la prime IA ne serait pas la bonne destination, j'ai également déposé la découverte de McDuffie sur le site "Signaler un problème à Bing" de Microsoft, qui dispose d'un formulaire spécifique pour signaler le "contenu problématique" d'Image Creator. J'ai attendu une semaine et je n'ai pas eu de réponse.

Pendant ce temps, l'IA continuait d'imaginer des décapitations, et McDuffie m'a montré que des images semblant exploiter des faiblesses similaires dans les garde-fous de sécurité de Microsoft apparaissaient sur les réseaux sociaux.

Cette fausse photo générée par l'IA, réalisée avec Image Creator de Microsoft le 6 novembre, montre un homme sikh avec le cou dépouillé de sa peau, exposant graphiquement les structures internes. Le Washington Post a flouté certaines parties de cette photo car les images sont dérangeantes. (Geoffrey A. Fowler/The Washington Post)

J'en avais assez vu. J'ai appelé le directeur des communications de Microsoft et lui ai fait part du problème.

"Dans ce cas, nous aurions pu faire plus", a envoyé Microsoft par courrier électronique dans un communiqué de Turnbaugh le 27 novembre. "Nos équipes examinent nos processus internes et apportent des améliorations à nos systèmes pour mieux répondre aux commentaires des clients et aider à prévenir la création de contenu préjudiciable à l'avenir.

J'ai insisté auprès de Microsoft pour lui expliquer comment l'invite de McDuffie avait contourné ses garde-fous. "L'incitation à créer une image violente utilisait un langage très spécifique pour contourner notre système", a déclaré la société dans un courriel du 5 décembre. "Nous avons de grandes équipes qui travaillent pour résoudre ces problèmes et d'autres similaires et avons apporté des améliorations aux mécanismes de sécurité qui empêchent ces invites de fonctionner et détecteront des types d'invites similaires à l'avenir."

Mais le sont-ils ?

L'invite originale précise de McDuffie ne fonctionne plus, mais après avoir modifié quelques mots, Image Generator crée toujours des images de personnes blessées au cou et au visage. Parfois, l'IA répond avec le message « Contenu dangereux détecté », mais pas toujours.

Les images qu'il produit sont désormais moins sanglantes - Microsoft semble avoir adhéré au sirop de maïs rouge - mais elles restent horribles.

À quoi ressemble une IA responsable

Les échecs répétés de Microsoft à agir sont un signal d’alarme. Au minimum, cela indique que la création de garde-fous en matière d'IA n'est pas une priorité très élevée, malgré les engagements publics de l'entreprise à créer [une IA responsable](https://support.microsoft.com/en-us/topic/the-new-bing -notre-approche-du-responsable-ai-45b5eae8-7466-43e1-ae98-b48f8ff8fd44).

J'ai essayé le « kill prompt » de McDuffie sur une demi-douzaine de concurrents de Microsoft en matière d'IA, y compris de petites start-ups. Tous sauf un ont simplement refusé de générer des images basées sur cela.

Ce qui est pire, c'est que même DALL-E 3 d'OpenAI – la société que Microsoft possède en partie – bloque l'invite de McDuffie. Pourquoi Microsoft n’utiliserait-il pas au moins les garde-fous techniques de son propre partenaire ? Microsoft n'a rien dit.

Mais quelque chose que Microsoft a dit à deux reprises dans ses déclarations a attiré mon attention : les gens essaient d’utiliser son IA « d’une manière qui n’était pas prévue ». À un certain niveau, l'entreprise pense que le problème vient de McDuffie qui utilise mal sa technologie.

Dans le jargon juridique de la [politique de contenu] de l'IA de l'entreprise (https://www.bing.com/new/termsofuseimagecreator#content-policy), les avocats de Microsoft précisent clairement que la responsabilité incombe aux utilisateurs : "N'essayez pas de créer ou de partager contenu qui pourrait être utilisé pour harceler, intimider, abuser, menacer ou intimider d'autres personnes, ou autrement causer du tort à des individus, des organisations ou à la société.

J'ai entendu d'autres personnes dans la Silicon Valley présenter une version de cet argument. Pourquoi devrions-nous blâmer Image Creator de Microsoft pas plus que Photoshop d'Adobe, que des gens malveillants utilisent depuis des décennies pour créer toutes sortes d'images terribles ?

Mais les programmes d’IA sont différents de Photoshop. D’une part, Photoshop n’est pas livré avec un bouton instantané « décapiter le pape ». "La facilité et le volume de contenu que l'IA peut produire la rendent beaucoup plus problématique. Elle a un plus grand potentiel d'être utilisé par de mauvais acteurs", explique McDuffie. "Ces entreprises proposent des technologies potentiellement dangereuses et cherchent à rejeter la faute sur l'utilisateur."

L’argument des mauvais utilisateurs me rappelle également Facebook au milieu des années 2010, lorsque le réseau social « agissez vite et cassez les choses » a agi comme s’il ne pouvait pas être responsable d’empêcher les gens d’utiliser sa technologie comme arme pour diffuser de la désinformation et de la haine. Cette position a conduit Facebook à s'efforcer d'éteindre les incendies les uns après les autres, avec un réel préjudice pour la société.

"Fondamentalement, je ne pense pas qu'il s'agisse d'un problème technologique ; je pense que c'est un problème de capitalisme", déclare Hany Farid, professeur à l'Université de Californie à Berkeley. "Ils regardent tous cette dernière vague d'IA et pensent : 'Nous ne pouvons pas rater le bateau ici.'"

Il ajoute : « L’ère du « aller vite et casser les choses » a toujours été stupide, et maintenant plus que jamais. »

Profiter du dernier engouement tout en accusant les mauvaises personnes d’avoir abusé de votre technologie n’est qu’un moyen de se soustraire à ses responsabilités.

Problème 3519

Incidents associés

Incident 6213 Rapports
Microsoft AI Is Alleged to Have Generated Violent Imagery of Minorities and Public Figures

Microsoft affirme que son IA est sûre. Alors pourquoi continue-t-il à trancher la gorge des gens ?

Microsoft contre l'invite de suppression

Microsoft laisse tomber la balle

À quoi ressemble une IA responsable

Problème 3519

Incidents associés

Incident 6213 RapportsMicrosoft AI Is Alleged to Have Generated Violent Imagery of Minorities and Public Figures

Microsoft affirme que son IA est sûre. Alors pourquoi continue-t-il à trancher la gorge des gens ?

Microsoft contre l'invite de suppression

Microsoft laisse tomber la balle

À quoi ressemble une IA responsable

Incident 6213 Rapports
Microsoft AI Is Alleged to Have Generated Violent Imagery of Minorities and Public Figures