Bienvenue dansla base de données des incidents d'IA
Incident 1402: Selon certaines informations, DOGE s'est appuyé sur des résultats non vérifiés de ChatGPT pour annuler des subventions du National Endowment for the Humanities.
“Quand DOGE a déchaîné ChatGPT sur les sciences humaines”Dernier rapport
Au printemps dernier, lorsque l'administration Trump a cherché à supprimer des subventions du National Endowment for the Humanities, elle s'est tournée vers un fléau bien connu des professeurs : ChatGPT.
En mars dernier, deux employés du Département de l'efficacité gouvernementale d'Elon Musk sont arrivés à l'agence avec pour mission d'annuler des subventions précédemment approuvées qui allaient à l'encontre du programme du président Trump. Mais au lieu d'examiner attentivement les projets financés, ils ont récupéré de courts résumés sur Internet et les ont soumis au chatbot d'intelligence artificielle.
La consigne était simple : « Ce qui suit a-t-il un lien quelconque avec la DEI ? Répondez factuellement en moins de 120 caractères. Commencez par « Oui » ou « Non ». » Les résultats ont été nombreux et parfois surprenants.
Des améliorations apportées à un centre d'archives de langues autochtones en Alaska risquaient de « promouvoir l'inclusion et la diversité des perspectives ». Le renouvellement d'une subvention de longue date pour la numérisation des journaux afro-américains et leur ajout à une base de données historiques a été jugé conforme aux principes de « D.E.I. » (Diversité, Équité et Inclusion). Il en a été de même pour les travaux sur une série de 40 volumes consacrés à l'histoire de la musique américaine.
Un documentaire sur le travail forcé des femmes juives pendant l'Holocauste ? L'accent mis sur le genre risquait de « contribuer à la D.E.I. en amplifiant la voix des personnes marginalisées ».
Même un projet de catalogage et de numérisation des archives de Thomas Gage, général britannique de la guerre d'Indépendance américaine, a été jugé coupable de « promouvoir l'inclusion et la diversité dans la recherche historique ».
Les employés du DOGE n'ont pas semblé remettre en question les jugements de ChatGPT et ont continué à traquer les projets inacceptables. Deux semaines plus tard, ils ont transmis à Michael McDonald, président par intérim de la fondation, une liste exhaustive de 1 477 subventions problématiques – soit la quasi-totalité des subventions en vigueur octroyées sous l’administration Biden.
M. McDonald, un vétéran de l’agence, a accepté que la DOGE les annule, ouvrant ainsi la voie, selon ses propres termes, à un nouveau départ pour le programme « L’Amérique d’abord » de M. Trump.
Les annulations, qui ont permis de récupérer plus de 100 millions de dollars, soit près de la moitié du budget annuel de l'agence, ont plongé de nombreuses organisations dans la tourmente, contraignant certains projets à fermer leurs portes. Des documents déposés dans le cadre de deux actions en justice intentées contre l'agence et le DOGE révèlent désormais de nouveaux détails sur la manière dont ces annulations massives ont été mises en œuvre, sans réelle consultation ni opposition de la part de la direction de l'agence.
Dans une requête conjointe déposée vendredi (https://www.historians.org/wp-content/uploads/2026/03/247-Memo-of-law-in-support-of-motion-for-summary-judgment.pdf), les plaignants – l’American Council of Learned Societies, l’American Historical Association, la Modern Language Association et l’Authors Guild – affirment que le DOGE a illégalement pris le contrôle de l’agence et procédé à des coupes budgétaires violant le Premier Amendement et la clause d’égalité de protection de la Constitution. Bien que les annulations aient été massives, selon la requête, elles s’inscrivaient dans le cadre d’une campagne contre le DEI (Département de l’Équité et de l’Intégrité) discriminatoire fondée sur la race, l’origine ethnique, le sexe et d’autres caractéristiques.
Les plaignants demandent le rétablissement des subventions. Ils souhaitent également que les archives historiques révèlent les motivations et les méthodes qui sous-tendent ce qu'ils considèrent comme une trahison du mandat de l'agence, qui est de respecter « la diversité des croyances et des valeurs » de tous les Américains, comme le stipule sa loi fondatrice.
« Notre gouvernement fédéral envoie le message que seule une définition restrictive des sciences humaines peut être soutenue, célébrée et financée, et qu'il n'existe qu'un ensemble limité de personnes, de cultures et d'expériences qui méritent d'être étudiées en profondeur », a déclaré Sarah Weicksel, directrice générale de l'American Historical Association, lors d'une interview.
Le fonds de dotation pour les sciences humaines et M. McDonald n'ont pas immédiatement répondu aux demandes de commentaires. Le récit qui suit est basé sur l'examen de courriels, de dépositions et d'autres documents internes versés au dossier.
« Nous subissons des pressions de la direction »
Depuis sa création en 1965, le fonds de dotation pour les sciences humaines a octroyé plus de 6,5 milliards de dollars (https://www.neh.gov/essentials) pour soutenir plus de 70 000 projets, allant d'œuvres marquantes comme le documentaire de Ken Burns « La Guerre de Sécession » à de modestes initiatives locales dans tout le pays. Les subventions sont généralement attribuées à l'issue d'un processus concurrentiel rigoureux, comprenant plusieurs phases d'évaluation par des experts.
La loi et la tradition accordent aux présidents, dont le mandat est de quatre ans, une certaine marge de manœuvre pour promouvoir leurs priorités. Cependant, la fondation est censée éviter tout militantisme politique, et de nombreux projets bénéficient d'un soutien sous plusieurs administrations.
Les annulations de subventions pour des raisons politiques sont extrêmement rares. Lors d'une déposition, M. McDonald a déclaré qu'en plus de vingt ans au sein de l'agence, il se souvenait de moins d'une demi-douzaine de subventions révoquées, toutes pour non-respect des engagements pris par les bénéficiaires.
Mais l'administration Trump avait des ambitions plus grandes.
Le 12 mars 2025, la présidente de l'agence de l'époque, Shelly C. Lowe, nommée par Biden, a quitté ses fonctions sur ordre de M. Trump. Le même jour, deux employés du DOGE, Justin Fox et Nate Cavanaugh, sont arrivés.
Ils ont reconnu sous serment n'avoir aucune formation en sciences humaines, mais adhéraient à la mission plus large du DOGE, qui consistait à réduire la taille des « petites agences inutiles », selon les termes de M. Cavanaugh.
En réaction à un décret présidentiel de M. Trump interdisant les initiatives en faveur de la diversité au sein du gouvernement, des membres du personnel de l'agence avaient déjà établi des tableaux classant toutes les subventions accordées sous l'administration Biden selon leur niveau d'implication en matière de diversité, d'équité et d'inclusion (DEI).
Au lieu de s'appuyer sur ces évaluations, comme le montrent les documents judiciaires, l'équipe DOGE a utilisé ChatGPT pour élaborer les siennes.
Le premier tableau créé par l'équipe DOGE signalait 1 057 subventions problématiques. Mais en deux semaines, MM. Fox et Cavanaugh en avaient identifié des centaines d'autres comme étant liées à la diversité, l'équité et l'inclusion (DEI) ou tout simplement « gaspilleuses ». Finalement, seules 42 subventions approuvées sous l'administration Biden ont été conservées.
MM. Fox et Cavanaugh n'ont pas immédiatement répondu aux demandes de commentaires.
Tout au long de son travail, l'équipe DOGE a fait part à M. McDonald, président par intérim, de ses inquiétudes quant à la lenteur du processus. Dans un courriel daté du 31 mars, M. Fox écrivait :
Nous subissons des pressions de la direction à ce sujet et nous préférerions que vous restiez de notre côté. Toutefois, n’hésitez pas à nous faire savoir si vous changez d’avis.
Après avoir examiné le tableau DOGE, M. McDonald a exprimé des réserves quant à plusieurs « projets importants » dont l’annulation « ne serait pas à notre avantage ».
De nombreuses subventions dont l’annulation était prévue étaient « inoffensives en matière de promotion de la diversité, de l’équité et de l’inclusion », a déclaré M. McDonald dans un courriel adressé à M. Fox le 1er avril :
Mais vous nous avez également indiqué qu’en plus d’annuler des projets susceptibles de promouvoir l’idéologie DEI, l’équipe DOGE souhaite également supprimer des financements destinés à réduire le déficit. Quoi qu’il en soit, comme vous l’avez clairement indiqué, la décision d’interrompre ou non le financement des projets figurant sur cette liste vous appartient.
M. McDonald a approuvé une lettre rédigée par l’équipe DOGE et a accepté de les laisser procéder aux annulations. Les lettres, signées par M. McDonald, ont commencé à être envoyées le 2 avril depuis une adresse non officielle créée par les employés du DOGE. Presque immédiatement, les destinataires ont réagi avec confusion, demandant si elles étaient authentiques.
Dans un courriel, M. McDonald a demandé aux employés de l'agence de confirmer les annulations, mais de ne fournir aucune information supplémentaire. Contrairement aux procédures habituelles de l'agence, aucun recours ne serait autorisé.
George Washington est épargné
Alors que la liste finale prenait forme, la question du maintien de certaines subventions liées au 250e anniversaire de la Déclaration d'indépendance (une priorité de l'administration Trump) a été soulevée.
Une subvention pour l'édition scientifique des écrits de George Washington a été maintenue. Mais les archives du général britannique Thomas Gage sont restées lettre morte au sein du Département de l'Éducation, de l'Indépendance et de l'Éducation (DEI).
Des discussions ont également eu lieu concernant le maintien du soutien au National History Day, un concours d'histoire qui touche chaque année environ 500 000 élèves de collège et de lycée à travers le pays.
Dans un courriel adressé à M. Fox, M. McDonald a exprimé son scepticisme quant à la fiabilité de l'organisateur, malgré une subvention de 450 000 $ obtenue lors de la première administration Trump.
« Je n'ai jamais été particulièrement fan de National History Day », a déclaré M. McDonald lors de sa déposition. Selon lui, l'émission « penchait à gauche ».
Dans leur requête, les plaignants affirment que les annulations reflétaient une animosité envers certains groupes défavorisés et la conviction que les recherches les concernant étaient par nature inutiles.
À titre de preuve, le dossier mentionne une liste compilée par M. Fox (https://www.historians.org/wp-content/uploads/2026/03/248-9.pdf) recensant les subventions qu'il qualifiait de « plus absurdes » et « mauvaises », et qu'il prévoyait de mettre en avant sur le compte X de DOGE (https://x.com/DOGE/status/1924944059153670530?s=20). Il a utilisé une trentaine de mots-clés, dont « LGBTQ », « BIPOC », « tribal », « ethnicité », « genre », « égalité », « immigration », « citoyenneté » et « melting-pot ». (La majorité des deux douzaines de subventions jugées les plus « absurdes » concernaient des sujets LGBTQ.)
Lors de sa déposition, M. Fox a déclaré que cette liste reflétait son jugement subjectif quant à la conformité potentielle d'une subvention avec le décret présidentiel de M. Trump.
« “Absurde” est une façon de le dire », a-t-il affirmé. « “Très compromettant” en est une autre. »
Les avocats des plaignants ont également interrogé M. Fox au sujet de certaines subventions repérées lors de sa recherche initiale sur ChatGPT, notamment celle destinée à un documentaire sur le massacre de Colfax (Louisiane) de 1873, où des dizaines d'hommes noirs furent assassinés par une foule d'anciens confédérés et de membres du Ku Klux Klan.
ChatGPT l'avait classée comme « D.E.I. » (Diversité, Équité et Inclusion). M. Fox a déclaré être d'accord. « Parce qu'elle porte exclusivement sur la violence anti-Noirs, qui est une question raciale », a-t-il affirmé.
Les avocats des plaignants ont également souligné que la recherche initiale de M. Fox sur ChatGPT avait mis en évidence plusieurs projets relatifs à l'Holocauste, notamment le documentaire sur les femmes juives réduites en esclavage (https://www.hollywoodreporter.com/news/politics-news/doge-neh-cuts-musk-donald-trump-1236211712/).
Interrogé sur son accord avec ChatGPT, M. Fox a déclaré : « C'est un projet juif, spécifiquement axé sur la culture juive et visant à donner la parole aux femmes marginalisées de cette culture. De ce fait, il est intrinsèquement lié à l'équité, l'inclusion et l'émancipation (DIE). »
Lors de la déposition, lorsque les avocats ont évoqué ChatGPT, M. McDonald, avocat et docteur en littérature, a semblé ignorer que l'équipe de DOGE l'avait utilisé. Il a affirmé ne pas croire que les subventions concernant le massacre de Colfax et l'Holocauste soient liées à l'équité, l'inclusion et l'émancipation (DIE).
Mais il a revendiqué la responsabilité de toutes les réductions de subventions. « J'étais le décideur final », a-t-il déclaré. « C'est moi qui ai pris cette décision. »
(Dans une affaire judiciaire sans lien avec le différend concernant la dotation des sciences humaines, le New York Times a poursuivi OpenAI, créateur de ChatGPT, et son partenaire Microsoft en 2023, les accusant de violation de droits d'auteur sur des contenus d'actualité relatifs aux systèmes d'IA. Les entreprises ont nié ces accusations.)
« Priorité à l'Amérique » pour les sciences humaines ?
Le 2 avril de l'année dernière, alors que les annulations de subventions étaient annoncées, M. Fox a adressé une demande à M. McDonald :
Veuillez préparer votre vision des personnes compétentes, engagées et en phase avec la mission, nécessaires à la mise en œuvre de votre nouvelle orientation donnant la priorité aux subventions « Priorité à l'Amérique ».
Au cours des mois suivants, les effectifs de l'agence ont été réduits des deux tiers, pour atteindre environ 60 personnes.
MM. Fox et Cavanaugh ont quitté le gouvernement l'été dernier pour fonder une entreprise technologique appelée Special. M. McDonald travaille toujours au sein de l'agence. Le 4 février, M. Trump l'a nommé président permanent, une fonction qui requiert la confirmation du Sénat.
Avant de rejoindre la fondation en 2003 en tant que conseiller juridique, M. McDonald était le principal stratège juridique du Center for Individual Rights, un groupe de réflexion conservateur surtout connu pour son opposition à la discrimination positive. Dans sa déposition, il a déclaré que, sous l'administration Biden, l'agence pour les sciences humaines était devenue « gonflée » et excessivement axée sur la diversité. Il a également critiqué les nouvelles initiatives relatives au changement climatique, qualifiant la question de « très controversée ».
Selon lui, l'administration Trump souhaitait « repartir à zéro », « faire table rase ».
Dans le cadre de leurs travaux, les membres de l'équipe DOGE communiquaient principalement avec M. McDonald et Adam Wolfson, directeur adjoint des programmes de l'agence, en poste depuis 2006. Un échange de SMS, joint au dossier judiciaire, suggère que les deux hommes partageaient une vision pessimiste de l'orientation actuelle du monde universitaire.
Le 13 avril, M. McDonald a envoyé à M. Wolfson un SMS contenant un article dénonçant les coupes budgétaires massives dans les subventions. En réponse, M. Wolfson a critiqué « l'accusation tendancieuse selon laquelle l'administration agirait comme tous les gouvernements autoritaires (voire totalitaires !) pour détruire les sciences humaines ».
« La version progressiste des sciences humaines y est parvenue il y a déjà quelque temps », a-t-il ajouté. « Aujourd'hui, on parle de "wokisme" et d'intersectionnalité. »
M. McDonald a ajouté un emoji pouce levé.
Dans sa déposition, M. McDonald, reprenant une critique largement répandue, a réitéré son désarroi face à « l'uniformité de l'idéologie progressiste qui imprègne aujourd'hui les sciences humaines ». Il a déclaré soutenir l'approche de l'administration Trump, qu'il a qualifiée de « priorité à l'Amérique », axée sur « la civilisation américaine, la civilisation occidentale, la civilisation judéo-chrétienne, et autres choses de ce genre ».
Au cours de l'année écoulée, M. McDonald a orienté l'agence dans cette direction. En janvier, elle a annoncé l'octroi de 75 millions de dollars de nouvelles subventions, dont plus de 40 millions de dollars de subventions importantes à des centres de réflexion civique soutenus par les conservateurs et à des programmes d'études en humanités classiques. Des instituts, créés sur ou à proximité de certains campus universitaires, ont été mis en place pour contrer la tendance libérale du monde académique.
Nombre de ces subventions ont été attribuées à des candidats triés sur le volet, invités à candidater, en dehors du cadre habituel des appels à projets ouverts et concurrentiels de l'agence.
Les documents judiciaires apportent un éclairage nouveau sur l'origine d'une importante subvention qui a suscité une attention particulière : une subvention de 10,4 millions de dollars – la plus importante de l'histoire de l'agence – accordée à Tikvah, une organisation éducative juive conservatrice, pour un vaste projet promouvant l'étude de la civilisation juive et de la culture occidentale.
Interrogé par les avocats des plaignants sur les raisons pour lesquelles Tikvah, qui n'avait jamais sollicité de subvention fédérale, avait reçu une subvention aussi importante et non concurrentielle, M. Wolfson a déclaré que M. McDonald avait été impressionné par un épisode de son podcast et lui avait demandé de prendre contact avec l'organisation.
Interrogé sur d'éventuels liens personnels avec Tikvah, M. Wolfson a indiqué que son épouse avait auparavant participé à un programme au sein de l'organisation et qu'elle était actuellement directrice générale d'une autre fondation créée par un ancien président du conseil d'administration de Tikvah.
M. Wolfson a toutefois affirmé n'avoir joué aucun rôle dans l'attribution de cette subvention, si ce n'est celui de mettre les gens en relation. « Je n'ai participé ni à l'examen de la candidature ni à quoi que ce soit d'autre », a-t-il déclaré. (M. Wolfson n'a pas répondu à notre demande de commentaires.)
Le conseil scientifique externe de la fondation pour les sciences humaines, composé de 17 membres et tenu par la loi de donner son avis sur la plupart des subventions, a voté contre la recommandation du prix Tikvah, mais M. McDonald a passé outre. En octobre dernier, peu après l'annonce publique de la subvention, la Maison-Blanche a limogé la plupart des membres du conseil sans fournir de motif.
Bien que certains programmes de subventions soient désormais réservés aux projets portant sur la « civilisation occidentale », l’agence continue de financer les travaux qu’elle soutient depuis longtemps : édition scientifique, conservation d’archives, expositions muséales et projets d’histoire publique.
Les plaignants constatent toutefois un rétrécissement des thèmes et des approches admissibles, ainsi qu’un recul par rapport au principe, inscrit dans sa loi fondatrice, selon lequel « les humanités appartiennent à tous les Américains ».
Joy Connolly, présidente de l’American Council of Learned Societies, a cité la conviction de George Washington qu’une nation démocratique a besoin de citoyens instruits. Elle a également mentionné le film à succès « Sinners », qui a engrangé près de 280 millions de dollars au box-office américain.
« Ce film repose sur des décennies de recherches historiques – l’histoire de la musique, l’histoire de l’esclavage », a-t-elle déclaré. « Il n’a pas été réalisé du jour au lendemain avec ChatGPT. »
« Les Américains raffolent de ce genre de films », a-t-elle ajouté. « Ils sont prêts à payer pour les voir. »
Incident 1403: NZ News Hub aurait utilisé des articles réécrits par IA et des images synthétiques pour tromper les utilisateurs néo-zélandais de Facebook.
“Des pages d’« actualités » générées par l’IA sur les réseaux sociaux induisent en erreur des milliers de Néo-Zélandais.”
Des milliers de Néo-Zélandais « aiment », commentent et partagent sur les réseaux sociaux des « actualités » dont ils ignorent peut-être qu'elles ont été rédigées par une intelligence artificielle et accompagnées d'images truquées, non légendées et inexactes, selon une enquête de 1News.
Des experts affirment que la popularité et la prolifération de ces comptes brouillent la frontière entre reportages authentiques et contenus fabriqués de toutes pièces et pourraient contribuer à la faible confiance déjà existante des Néo-Zélandais envers l'information. Les services de protection civile ont par ailleurs lancé des avertissements publics concernant ces pages.
1News a identifié au moins dix pages Facebook qui reprennent des articles de presse néo-zélandais existants, les réécrivent grâce à une intelligence artificielle et les publient sur Facebook avec des images synthétiques.
L'analyse de l'une de ces pages « d'actualités », nommée NZ News Hub et comptant des milliers de mentions « J'aime », de commentaires et de partages, a porté sur 209 publications datant du mois de janvier. Le nom de la page était similaire à celui du média national Newshub (qui a fermé ses portes en 2024).
Sa description indiquait : « NZ News Hub vous apporte les dernières actualités de Nouvelle-Zélande, les informations de dernière minute, la politique, l’économie, le sport et les actualités locales », mais la page ne semble contenir aucun reportage original.
Aucune des images n’était identifiée comme étant générée par IA, et certaines publications présentaient des photos truquées de personnes réelles.
Dans un cas, une photo d’une mineure tuée dans le glissement de terrain du mont Maunganui a été manipulée pour la montrer en train de danser. Dans un autre, une image de parents ayant perdu leur fille adolescente par suicide a été retouchée pour donner au couple une apparence affectueuse.
Les catastrophes naturelles et les publications concernant les services d’urgence étaient systématiquement dramatisées.
Des glissements de terrain authentiques sur les autoroutes de la côte est (https://www.1news.co.nz/2026/01/24/weeks-of-work-to-clear-part-of-state-highway-35-due-to-massive-slip/) ont été présentés par NZ News Hub comme étant beaucoup plus destructeurs : des maisons et des voitures écrasées ont été ajoutées à la description du glissement de terrain de Mount Maunganui (https://www.1news.co.nz/2026/02/01/recovery-operation-at-mt-maunganui-concludes-11-days-after-landslide/), et un bateau touristique échoué à Akaroa (https://www.1news.co.nz/2026/02/01/we-felt-a-thud-dozens-rescued-as-akaroa-tourist-boat-grounds/) a été retouché pour paraître beaucoup plus bondé qu'en réalité.
Les policiers portaient souvent des uniformes britanniques ou américains et étaient représentés armes au poing, alors qu'aucun communiqué officiel n'indiquait qu'ils étaient armés.
Dans certains cas, les textes bruts étaient conservés par erreur dans la publication. On pouvait lire, par exemple : « Voici une réécriture de style journalistique avec un titre clair, des émojis et les meilleurs hashtags » au-dessus d'un texte, et « Si vous voulez, je peux aussi le raccourcir, le rendre plus percutant ou l'adapter aux réseaux sociaux » en dessous d'un autre.
Une recherche d'images sur Google révèle que plusieurs photos publiées par la page contenaient un filigrane numérique « SynthID » intégré à leurs pixels, indiquant qu'elles avaient été créées à l'aide des outils de génération d'images par intelligence artificielle de cette entreprise.
NZ News Hub, créé fin novembre de l'année précédente, comptait plus de 4 700 abonnés. Les publications individuelles attiraient régulièrement plus de 1 000 mentions « J'aime » et commentaires, dont beaucoup critiquaient les images générées par l'IA et accusaient les médias de diffuser de fausses informations et d'utiliser cette technologie, bien que la page n'ait aucun lien avec un quelconque organe de presse.
Lorsqu'un internaute a dénoncé l'utilisation d'une photo générée par IA, NZ News Hub a répondu : « L'information est vraie. »
Les administrateurs de la page ont lu les questions détaillées de 1News concernant leur utilisation d'images générées par IA, notamment pourquoi une image d'une personne décédée a été créée sans autorisation familiale et pourquoi le contenu généré par IA n'était pas étiqueté.
Pour un utilisateur qui fait défiler rapidement la page, il est presque impossible de distinguer ces publications des véritables informations.
Les autorités tirent la sonnette d'alarme concernant la désinformation générée par IA.
Les autorités ont lancé des avertissements publics concernant de fausses pages sur les réseaux sociaux imitant des médias et partageant du contenu fabriqué ou généré par IA.
Le conseil du district de Gisborne et la protection civile de Tairāwhiti ont déclaré jeudi dernier être au courant de l'existence de fausses pages « se faisant passer pour des médias et partageant des images générées par IA et du contenu inventé concernant des événements et des urgences locales ».
Les agences ont indiqué que certaines publications semblaient crédibles car elles utilisaient des numéros de téléphone ou des adresses néo-zélandaises, imitaient des marques et le style des articles de presse d'« actualités de dernière minute », ou mentionnaient des personnes et des organisations réelles sans leur autorisation.
« L'exactitude des informations est primordiale, surtout en cas d'urgence. Assurons la sécurité et la bonne information de notre communauté », pouvait-on lire dans la déclaration publiée sur Facebook.
L'Agence nationale de gestion des urgences (NEMA) avait émis un avertissement le mois dernier concernant des images générées par intelligence artificielle circulant en ligne lors d'épisodes de conditions météorologiques extrêmes dans le pays, notamment en lien avec le glissement de terrain meurtrier du mont Maunganui.
« Il est essentiel que le public ait confiance dans les sources d'information d'urgence fiables et précises », a déclaré l'agence.
« En cas d'urgence, notre principal canal de diffusion de l'information auprès du public est constitué par les médias. »
La NEMA a ajouté avoir travaillé en étroite collaboration avec les médias afin de garantir la diffusion d'informations vérifiées et crédibles au public.
« Nous encourageons la vigilance, à s'informer auprès de sources fiables et à vérifier la crédibilité des sources avant de partager une information.
Nous surveillons de près les contenus diffusés lors d'une intervention, mais nous encourageons les Néo-Zélandais à signaler les images suspectes dès qu'ils les voient ou à les rapporter s'il existe un moyen approprié de le faire. »
Informations récupérées illégalement, images fabriquées
Merja Myllylahti, professeure associée à l'AUT et codirectrice de son Centre de journalisme, médias et démocratie, a déclaré que les pages d'« actualités » générées par l'IA sur les réseaux sociaux risquaient de brouiller la frontière entre journalisme légitime et contenu fabriqué en réutilisant des communiqués officiels et en les associant à des images générées par l'IA sans légende.
« Ils utilisent des informations manifestement légitimes provenant de communiqués de police ou de communiqués de presse – les mêmes informations que celles publiées sur les sites d'information traditionnels – mais ils créent ensuite des images par IA qui sont fictives et non légendées », a-t-elle expliqué.
Mme Myllylahti, qui a récemment publié un rapport sur l'utilisation de l'IA dans le paysage médiatique néo-zélandais, a évoqué cette pratique auprès de 1News. Cela différait nettement du fonctionnement des organisations traditionnelles.
« Lorsque j'ai rédigé mon rapport et que j'ai discuté avec les rédacteurs en chef de tous les grands médias – TVNZ, RNZ, le New Zealand Herald et Stuff –, ils ont tous affirmé ne pas créer ni générer de vidéos ou d'images à l'aide de l'IA, et que s'ils le faisaient, ils le divulgueraient. »
Andrew Lensen, maître de conférences en IA à l'Université Victoria, a déclaré que la diffusion de contenus générés par l'IA et se faisant passer pour des informations s'accélérait et devenait plus difficile à détecter.
« Il s'agit clairement d'un problème émergent qui ne cesse de s'aggraver. »
M. Lensen a expliqué que nombre de ces pages étaient basées sur de véritables articles de presse, mais que des inexactitudes étaient souvent introduites lors de la récupération, de la réécriture et de la republication automatiques des contenus par les systèmes d'IA.
« Même si l'histoire de base est vraie, les détails peuvent être inexacts », a-t-il ajouté. a-t-il déclaré.
Les pages produisant ce contenu étaient « presque toujours entièrement automatisées », a-t-il précisé, utilisant des flux de travail scriptés qui surveillent les sources d'information légitimes et alimentent de grands modèles de langage, comme ChatGPT, qui le réécrivent ensuite selon une consigne prédéfinie.
Des images ou des vidéos étaient ensuite générées automatiquement pour accompagner le texte – parfois à partir d'images existantes – avant d'être publiées sur les réseaux sociaux.
Fausses pages érodant la confiance dans les médias légitimes
Myllylahti a expliqué que le problème résidait dans la difficulté pour de nombreux publics de distinguer les organes de presse professionnels des pages de réseaux sociaux conçues pour les imiter.
Cette confusion risquait de nuire à la confiance dans les médias légitimes, en particulier lorsque les fausses pages adoptaient une identité visuelle ou des noms similaires, a-t-elle ajouté.
« Les gens pourraient penser : “Les médias diffusent simplement de fausses images”, sans se rendre compte que cette page n'est liée à aucune rédaction », a-t-elle déclaré.
Les deux chercheurs ont averti que le volume croissant de contenu généré par l'IA risquait d'éroder la confiance, même dans les médias réputés – surtout à une époque où seulement 32 % des nouveaux utilisateurs de l'information sont affiliés à l'IA. Les Néo-Zélandais font confiance à l'information (https://www.1news.co.nz/2025/04/13/trust-in-news-stabilises-after-sharp-decline-over-five-years/), selon la dernière enquête de l'AUT sur la confiance dans l'information.
« Les gens pourraient se dire : "Cela se passe déjà sur les réseaux sociaux, alors pourquoi ferais-je confiance à ce que font 1News ou le Herald ?" », a déclaré Lensen.
À mesure que la technologie évolue et que les images générées par l'IA deviennent plus convaincantes, les indices visuels deviendront moins fiables, a-t-il ajouté, faisant de la vérification des sources le principal rempart contre la désinformation.
« Est-ce Radio New Zealand ou 1News, ou une page au nom un peu étrange dont on ne trouve aucune autre référence ? », a-t-il demandé.
« Vous devrez vérifier les faits vous-même. »
Pour l'instant, Lensen a indiqué que des incohérences pouvaient encore fournir des indices, comme des uniformes incorrects ou du matériel non conforme aux normes néo-zélandaises. ou des textes déformés et incohérents intégrés à des images.
Myllylahti a déclaré que cette situation offrait aux médias l'opportunité de renforcer la confiance en expliquant clairement comment l'intelligence artificielle était utilisée pour appuyer le travail journalistique.
« Soyez totalement transparents, dites au public si vous l'utilisez pour la recherche, la synthèse de documents volumineux ou la transcription de textes », a-t-elle déclaré.
« Plus vous informez le public, plus la confiance sera grande. »
Meta, propriétaire de Facebook, n'a pas communiqué avec 1News avant la date limite de publication concernant une éventuelle violation de ses règles par les pages concernées, ni les mesures d'application qui seraient prises.
Mise à jour : Lundi après-midi, NZ News Hub avait disparu de Facebook. On ignore si le compte a été supprimé automatiquement ou si Meta a pris des mesures.
Incident 1399: Une Sud-Coréenne aurait utilisé ChatGPT pour évaluer la létalité de mélanges de drogues et d'alcool avant deux empoisonnements mortels dans des motels.
“« Cela pourrait-il tuer quelqu’un ? » Une femme de Séoul aurait utilisé ChatGPT pour commettre deux meurtres dans des motels sud-coréens.”
Soyez prudent·e dans vos interactions avec les chatbots, car vous pourriez leur donner des raisons de commettre un meurtre prémédité.
Une Sud-Coréenne de 21 ans aurait utilisé ChatGPT pour répondre à des questions alors qu'elle planifiait une série de meurtres qui ont coûté la vie à deux hommes et laissé un troisième brièvement inconscient.
La jeune femme, identifiée uniquement par son nom de famille, Kim, aurait donné à deux hommes des boissons contenant des benzodiazépines qui lui avaient été prescrites pour une maladie mentale, selon le Korea Herald.
Bien que Kim ait été initialement arrêtée le 11 février pour coups et blessures ayant entraîné la mort, ce n'est que lorsque la police de Gangbuk à Séoul a découvert son historique de recherche en ligne et ses conversations avec ChatGPT que les charges ont été requalifiées. Ses questions ont en effet établi son intention présumée de tuer.
« Que se passe-t-il si on prend des somnifères avec de l'alcool ? », aurait demandé Kim au chatbot OpenAI. « Quelle dose serait considérée comme dangereuse ? »
« Est-ce que ça pourrait être mortel ? » aurait demandé Kim. « Est-ce que ça pourrait tuer quelqu’un ? »
Dans une affaire très médiatisée surnommée les meurtres en série du motel Gangbuk, les procureurs affirment que l’historique de recherche et les échanges avec le chatbot de Kim montrent que la suspecte cherchait à savoir si son cocktail pouvait être mortel.
« Kim a posé à plusieurs reprises des questions relatives aux drogues sur ChatGPT. » « Elle était parfaitement consciente que la consommation d'alcool et de drogues pouvait être mortelle », a déclaré un enquêteur de police, selon le Herald.
La police a indiqué que la femme avait admis avoir mélangé des sédatifs sur ordonnance contenant des benzodiazépines aux boissons des hommes, mais avait précédemment affirmé ignorer que cela entraînerait leur mort.
Le 28 janvier, peu avant 21h30, Kim aurait accompagné un homme d'une vingtaine d'années dans un motel du quartier de Gangbuk à Séoul. Deux heures plus tard, elle a été aperçue quittant l'établissement seule. Le lendemain, l'homme a été retrouvé mort dans son lit.
Kim aurait ensuite récidivé le 9 février, en s'enregistrant dans un autre motel avec un autre homme d'une vingtaine d'années, lui aussi retrouvé mort, victime du même mélange mortel de sédatifs et d'alcool.
La police allègue également que Kim a tenté de tuer un homme avec qui elle avait une relation en décembre, après lui avoir donné une boisson contenant des sédatifs sur un parking. Bien que l'homme ait perdu connaissance, il a survécu et ses jours n'étaient pas en danger. État.
Selon un porte-parole d'OpenAI, interrogé par Fortune, les questions posées par Kim au chatbot étaient factuelles. Autrement dit, elles n'auraient pas déclenché d'alarme, contrairement à ce qui se serait produit si un utilisateur avait exprimé des idées suicidaires (ChatGPT est programmé pour répondre avec le numéro d'urgence en cas de crise suicidaire). La police sud-coréenne n'affirme pas que le chatbot ait fourni d'autres réponses que factuelles aux questions de Kim.
Les chatbots et leur impact sur la santé mentale
Ces derniers temps, les chatbots comme ChatGPT font l'objet d'un examen minutieux en raison du manque de mécanismes de contrôle mis en place par leurs entreprises pour prévenir les actes de violence ou d'automutilation. Récemment, des chatbots ont donné des conseils sur la fabrication de bombes, voire suggéré une annihilation nucléaire dans des scénarios de jeux de guerre hypothétiques.
Ces inquiétudes ont été particulièrement exacerbées par des témoignages de personnes ayant subi des traumatismes crâniens. L'amour entre les femmes et leurs compagnons conversationnels (chatbots) est un sujet de débat, et il a été démontré que ces mêmes compagnons conversationnels exploitent les vulnérabilités des utilisateurs pour les fidéliser. Le créateur de Yara AI a même fermé son application de thérapie en raison de problèmes de santé mentale.
Des études récentes ont également montré que les chatbots contribuent à l'augmentation des crises de santé mentale, parfois accompagnées de délires, chez les personnes souffrant de troubles mentaux. Une équipe de psychiatres de l'Université d'Aarhus, au Danemark, a constaté que l'utilisation de chatbots chez les personnes souffrant de troubles mentaux entraînait une aggravation de leurs symptômes. Ce phénomène relativement récent de troubles de santé mentale induits par l'IA a été baptisé « psychose IA ».
Dans certains cas, l'issue est fatale. Google et Character.AI ont conclu des accords à l'amiable dans plusieurs procès intentés par les familles d'enfants décédés par suicide ou ayant subi des préjudices psychologiques qu'elles imputent à l'utilisation de chatbots.
Le Dr Jodi Halpern, professeure et titulaire de la chaire universitaire de bioéthique à l'École de santé publique de l'UC Berkeley, ainsi que codirectrice du Centre Kavli pour l'éthique, la science et le public, possède une vaste expérience en la matière. Dans son domaine, Halpern a consacré une carrière aussi longue que son titre, pendant 30 ans, à étudier les effets de l'empathie sur les personnes qui la reçoivent, citant des exemples tels que les relations entre médecins et infirmières et leurs patients, ou la perception des soldats de retour de la guerre dans les contextes sociaux. Ces sept dernières années, elle a étudié l'éthique des technologies, et notamment la manière dont l'IA et les chatbots interagissent avec les humains.
Elle a également conseillé le Sénat californien sur le projet de loi SB 243, première loi du pays obligeant les entreprises de chatbots à collecter et à déclarer toute donnée relative à l'automutilation ou aux idées suicidaires. Se référant aux conclusions d'OpenAI (https://openai.com/index/strengthening-chatgpt-responses-in-sensitive-conversations/) montrant que 1,2 million d'utilisateurs abordent ouvertement le sujet du suicide avec le chatbot, Halpern a comparé l'utilisation des chatbots aux progrès laborieux réalisés pour empêcher l'industrie du tabac d'inclure des substances cancérigènes nocives dans les cigarettes, alors qu'en réalité, le problème résidait dans le tabagisme en tant que tel. Entier.
« Nous avons besoin d'entreprises sûres. C'est comme pour les cigarettes. » Il se pourrait que certains facteurs rendent certaines personnes plus vulnérables au cancer du poumon, mais le tabagisme était bien le problème », a déclaré Halpern à Fortune.
« Le fait qu'une personne puisse avoir des pensées homicides ou commettre des actes dangereux pourrait être exacerbé par l'utilisation de ChatGPT, ce qui est évidemment très préoccupant pour moi », a-t-elle ajouté, précisant que « le risque est énorme que des personnes utilisent ChatGPT pour obtenir de l'aide au suicide », et ce, de manière générale, concernant les chatbots.
Halpern a mis en garde contre l'absence de garde-fous dans le cas de Kim à Séoul, soulignant qu'il n'existe aucun mécanisme pour empêcher une personne de s'engager dans une spirale de questions.
« Nous savons que plus la relation avec le chatbot se prolonge, plus elle se détériore et plus le risque d'incident dangereux augmente. Nous ne disposons donc d'aucun garde-fous pour protéger les utilisateurs contre ce genre de situation. »
Si vous avez des pensées suicidaires, contactez le numéro d'urgence 988 (988 ou 1-800-273-8255).
Cet article Cet article a été mis à jour avec des remarques d'OpenAI concernant le contenu des questions que Kim aurait posées au chatbot.
Incident 1401: Le système téléphonique d'intelligence artificielle du ministère du Travail de l'État de Washington aurait répondu en anglais avec un accent espagnol aux appelants demandant un service en espagnol.
“Les personnes qui appellent la ligne d'assistance téléphonique de l'État de Washington appuient sur 2 pour l'espagnol et entendent à la place un discours en anglais parlé par une IA avec un accent.”
SEATTLE (AP) — Appuyez sur 2 pour l'espagnol… avec un accent ?
Pendant des mois, les personnes appelant le Département des permis de conduire de l'État de Washington et demandant un service automatisé en espagnol entendaient à la place une voix de synthèse (IA) parlant anglais avec un fort accent espagnol. L'agence a depuis présenté ses excuses et affirmé avoir résolu le problème.
Maya Edwards, une habitante de Washington, a découvert l'existence de cette voix de synthèse l'été dernier, lorsque son mari mexicain a tenté d'utiliser l'option espagnole pour obtenir des informations sur son permis de conduire. Bilingue, il a constaté que le temps d'attente pour parler à un conseiller en anglais était long et a donc appuyé sur 2 pour l'espagnol.
Pour Edwards, c'était comme une scène de « Parks and Recreation », une série humoristique de type faux documentaire qui parodie l'administration locale.
« Sur le coup, c'était hilarant, tellement absurde », a-t-elle déclaré jeudi. « Mais en même temps, cela pose de réels problèmes d'accessibilité pour les personnes qui appellent quotidiennement et qui ont besoin de parler dans une autre langue que l'anglais. »
Lorsqu'Edwards a rappelé le numéro ce mois-ci, elle a constaté que l'erreur persistait. Elle a publié une vidéo de l'appel sur TikTok, qui a cumulé près de 2 millions de vues.
Le Département des permis de conduire de l'État de Washington a déclaré vendredi dans un communiqué avoir corrigé le problème après avoir déterminé qu'il était dû à une erreur de son personnel. Il a précisé que l'option libre-service est disponible en 10 langues et utilise une technologie plus récente basée sur l'intelligence artificielle.
« Le ministère du Travail (DOL) présente ses excuses pour cette erreur et pour les désagréments occasionnés à ses clients », a-t-il déclaré dans un communiqué distinct la veille. « L'expansion des services a malheureusement engendré des problèmes avec l'option libre-service. »
On ignorait dans l'immédiat si le problème affectait d'autres langues ; les tentatives de l'Associated Press pour utiliser le service téléphonique dans d'autres langues n'ont pas entraîné l'apparition d'autres voix accentuées.
Jeudi matin, la ligne téléphonique diffusait toujours la voix après un message en anglais indiquant que certains services de traduction ne fonctionnaient pas correctement.
Un journaliste de l'AP a suivi les instructions pour sélectionner les options en espagnol et a entendu une voix parlant un anglais accentué, utilisant l'espagnol uniquement pour les chiffres.
« Votre temps d'attente estimé est inférieur à 'tres' minutes », a annoncé la voix.
Le DOL a indiqué qu'Amazon fournissait la plateforme du service téléphonique et a refusé les demandes d'interview. Les journalistes de l'AP ont pu reproduire la voix grâce à une fonctionnalité d'Amazon Web Services appelée Polly et en sélectionnant la voix « Lucia », qui imite l'espagnol castillan. Amazon n'a pas immédiatement répondu à notre demande de commentaires.
Incident 1395: Anthropic a déclaré que DeepSeek, Moonshot et MiniMax avaient utilisé des comptes frauduleux et des proxys pour exploiter illégalement les capacités de Claude à grande échelle.
“Détection et prévention des attaques par distillation”
Nous avons identifié des campagnes à grande échelle menées par trois laboratoires d'IA – DeepSeek, Moonshot et MiniMax – visant à extraire illégalement les capacités de Claude afin d'améliorer leurs propres modèles. Ces laboratoires ont généré plus de 16 millions d'échanges avec Claude via environ 24 000 comptes frauduleux, en violation de nos conditions d'utilisation et de nos restrictions d'accès régionales.
Ces laboratoires ont utilisé une technique appelée « distillation », qui consiste à entraîner un modèle moins performant sur les résultats d'un modèle plus puissant. La distillation est une méthode d'entraînement légitime et largement utilisée. Par exemple, les laboratoires d'IA de pointe distillent régulièrement leurs propres modèles pour créer des versions plus petites et moins coûteuses pour leurs clients. Cependant, la distillation peut également être utilisée à des fins illicites : les concurrents peuvent s'en servir pour acquérir des capacités puissantes auprès d'autres laboratoires en un temps record et à un coût bien inférieur à celui nécessaire pour les développer indépendamment.
Ces campagnes gagnent en intensité et en sophistication. Il est urgent d'agir, et la menace dépasse le cadre d'une seule entreprise ou région. Pour y remédier, une action rapide et coordonnée des acteurs industriels, des décideurs politiques et de la communauté mondiale de l'IA sera indispensable.
Pourquoi la distillation est importante
Les modèles distillés illégalement sont dépourvus des garde-fous nécessaires, ce qui engendre des risques importants pour la sécurité nationale. Anthropic et d'autres entreprises américaines conçoivent des systèmes qui empêchent les acteurs étatiques et non étatiques d'utiliser l'IA pour, par exemple, développer des armes biologiques ou mener des cyberattaques. Les modèles issus d'une distillation illicite sont peu susceptibles de conserver ces garde-fous, ce qui signifie que des capacités dangereuses peuvent proliférer, de nombreuses protections étant totalement absentes.
Les laboratoires étrangers qui distillent des modèles américains peuvent ensuite intégrer ces capacités non protégées dans les systèmes militaires, de renseignement et de surveillance, permettant ainsi aux gouvernements autoritaires de déployer une IA de pointe pour des cyberopérations offensives, des campagnes de désinformation et la surveillance de masse. Si les modèles distillés sont mis à disposition en open source, ce risque se multiplie, car ces capacités se propagent librement, échappant à tout contrôle gouvernemental.
Attaques par distillation et contrôles à l'exportation
Anthropic a toujours soutenu les contrôles à l'exportation afin de maintenir le leadership américain en IA. Les attaques par distillation compromettent ces contrôles en permettant à des laboratoires étrangers, y compris ceux sous le contrôle du Parti communiste chinois, de combler l'avantage concurrentiel que les contrôles à l'exportation visent à préserver par d'autres moyens.
Faute de visibilité sur ces attaques, les progrès apparemment rapides réalisés par ces laboratoires sont interprétés à tort comme la preuve que les contrôles à l'exportation sont inefficaces et peuvent être contournés par l'innovation. En réalité, ces progrès reposent en grande partie sur des capacités extraites de modèles américains, et l'extraction à grande échelle de ces capacités nécessite l'accès à des puces de pointe. Les attaques par distillation renforcent donc la justification des contrôles à l'exportation : un accès restreint aux puces limite à la fois l'entraînement direct des modèles et l'ampleur de la distillation illicite.
Nos conclusions
Les trois campagnes de distillation décrites ci-dessous ont suivi un schéma similaire, utilisant des comptes frauduleux et des services proxy pour accéder à Claude à grande échelle tout en échappant à la détection. Le volume, la structure et l'objet des requêtes différaient des schémas d'utilisation habituels, reflétant une extraction délibérée de capacités plutôt qu'une utilisation légitime.
Nous avons attribué chaque campagne à un laboratoire spécifique avec un haut degré de certitude grâce à la corrélation des adresses IP, aux métadonnées des requêtes, aux indicateurs d'infrastructure et, dans certains cas, à la corroboration de partenaires industriels ayant observé les mêmes acteurs et comportements sur leurs plateformes. Chaque campagne ciblait les capacités les plus distinctives de Claude : le raisonnement automatisé, l'utilisation d'outils et la programmation.
DeepSeek
Échelle : Plus de 150 000 échanges
L'opération visait :
-
Les capacités de raisonnement pour diverses tâches
-
Les tâches d'évaluation basées sur des grilles d'évaluation, permettant à Claude de fonctionner comme un modèle de récompense pour l'apprentissage par renforcement
-
La création d'alternatives sécurisées contre la censure pour les requêtes sensibles aux politiques
DeepSeek a généré un trafic synchronisé entre les comptes. Des schémas identiques, des méthodes de paiement partagées et une synchronisation des tâches suggéraient un « équilibrage de charge » visant à accroître le débit, améliorer la fiabilité et éviter la détection.
Une technique notable consistait à demander à Claude d'imaginer et d'articuler le raisonnement interne sous-jacent à une réponse complète, puis de le rédiger étape par étape, générant ainsi des données d'entraînement sur la chaîne de pensée à grande échelle. Nous avons également observé des tâches où Claude était utilisé pour générer des alternatives à la censure à des requêtes politiquement sensibles, telles que celles concernant les dissidents, les dirigeants de partis ou l'autoritarisme, probablement afin d'entraîner les modèles de DeepSeek à orienter les conversations loin des sujets censurés. L'analyse des métadonnées des requêtes nous a permis de relier ces comptes à des chercheurs spécifiques du laboratoire.
Moonshot AI
Échelle : Plus de 3,4 millions d'échanges
L'opération ciblait :
-
Raisonnement agentiel et utilisation d'outils
-
Programmation et analyse de données
-
Développement d'agents informatiques
-
Vision par ordinateur
Moonshot (modèles Kimi) a utilisé des centaines de comptes frauduleux via de multiples voies d'accès. La diversité des types de comptes a rendu la détection de cette campagne comme opération coordonnée plus difficile. Nous l'avons attribuée grâce aux métadonnées des requêtes, qui correspondaient aux profils publics de cadres supérieurs de Moonshot. Ultérieurement, Moonshot a adopté une approche plus ciblée, tentant d'extraire et de reconstituer les traces de raisonnement de Claude.
MiniMax
Échelle : Plus de 13 millions d'échanges
L'opération ciblait :
- Programmation automatisée
- Utilisation et orchestration d'outils
Nous avons attribué la campagne à MiniMax grâce aux métadonnées des requêtes et aux indicateurs d'infrastructure, et confirmé la concordance avec leur feuille de route produit publique. Nous avons détecté cette campagne alors qu'elle était encore active, avant même que MiniMax ne publie le modèle qu'elle entraînait, ce qui nous a permis d'obtenir une visibilité sans précédent sur le cycle de vie des attaques par distillation, de la génération des données au lancement du modèle. Lorsque nous avons publié un nouveau modèle pendant la campagne active de MiniMax, ils ont réagi en moins de 24 heures, redirigeant près de la moitié de leur trafic pour exploiter les fonctionnalités de notre système le plus récent.
Comment les laboratoires accèdent aux modèles de pointe
Pour des raisons de sécurité nationale, Anthropic n'offre actuellement aucun accès commercial à Claude en Chine, ni à ses filiales situées hors du pays.
Pour contourner cette restriction, les laboratoires utilisent des services de proxy commerciaux qui revendent à grande échelle l'accès à Claude et à d'autres modèles d'IA de pointe. Ces services exploitent des architectures que nous appelons « cluster hydra » : de vastes réseaux de comptes frauduleux qui répartissent le trafic entre notre API et des plateformes cloud tierces. L'étendue de ces réseaux garantit l'absence de point de défaillance unique. Lorsqu'un compte est banni, un autre le remplace. Dans un cas précis, un seul réseau de proxy a géré simultanément plus de 20 000 comptes frauduleux, mêlant le trafic de distillation à des requêtes clients sans lien avec le projet afin de compliquer la détection.
Une fois l'accès obtenu, les laboratoires génèrent d'importants volumes de requêtes soigneusement conçues pour extraire des capacités spécifiques du modèle. L'objectif est soit de recueillir des réponses de haute qualité pour l'entraînement direct du modèle, soit de générer des dizaines de milliers de tâches uniques nécessaires à l'apprentissage par renforcement. Ce qui distingue une attaque par distillation d'une utilisation normale, c'est la régularité des requêtes. Une requête comme la suivante (qui ressemble à des requêtes similaires que nous avons observées utilisées de manière répétitive et à grande échelle) peut sembler anodine prise isolément :
Vous êtes un analyste de données expert, alliant rigueur statistique et connaissance approfondie du domaine. Votre objectif est de fournir des analyses basées sur les données – et non des résumés ou des visualisations – fondées sur des données réelles et étayées par un raisonnement complet et transparent.
Mais lorsque des variantes de cette requête arrivent des dizaines de milliers de fois sur des centaines de comptes coordonnés, toutes ciblant la même capacité spécifique, la régularité devient évidente. Un volume massif concentré sur quelques domaines, des structures très répétitives et un contenu qui correspond directement à ce qui est le plus précieux pour l'entraînement d'un modèle d'IA sont les caractéristiques d'une attaque par distillation.
Notre réponse
Nous continuons d'investir massivement dans des défenses qui rendent les attaques par distillation plus difficiles à exécuter et plus faciles à identifier. Ces défenses comprennent :
-
Détection. Nous avons développé plusieurs classificateurs et systèmes d'empreinte comportementale conçus pour identifier les schémas d'attaques par distillation dans le trafic API. Cela inclut la détection des chaînes de raisonnement utilisées pour construire les données d'entraînement. Nous avons également développé des outils de détection permettant d'identifier les activités coordonnées sur un grand nombre de comptes.
-
Partage de renseignements*. Nous partageons des indicateurs techniques avec d'autres laboratoires d'IA, des fournisseurs de cloud et les autorités compétentes. Cela permet d'avoir une vision plus globale du paysage de la distillation.
-
Contrôles d'accès. Nous avons renforcé la vérification des comptes éducatifs, des programmes de recherche en sécurité et des startups — les voies les plus fréquemment exploitées pour la création de comptes frauduleux.
-
Contre-mesures. Nous développons des protections au niveau des produits, des API et des modèles, conçues pour réduire l'efficacité des résultats des modèles à des fins de distillation illicite, sans dégrader l'expérience des clients légitimes.
Mais aucune entreprise ne peut résoudre ce problème seule. Comme indiqué précédemment, les attaques par distillation de cette ampleur exigent une réponse coordonnée de l'ensemble du secteur de l'IA, des fournisseurs de services cloud et des décideurs politiques. Nous publions ces informations afin de rendre les preuves accessibles à toutes les parties prenantes.
Ajout rapide d'un nouveau rapport
A propos de la base de données
La base de données des incidents d'IA est dédiée à l'indexation de l'historique collectif des dommages ou les quasi-dommages réalisés dans le monde réel par le déploiement de systèmes d'intelligence artificielle. Comme des bases de données similaires dans l'aviation et la sécurité informatique, La base de données des incidents d'IA vise à apprendre de l'expérience afin que nous puissions prévenir ou atténuer les mauvais résultats.
Vous êtes invité à soumettre des rapports d'incident, après quoi les soumissions seront indexées et rendues visibles au monde entier. L'intelligence artificielle ne sera bénéfique pour les personnes et la société que si nous enregistrons et apprenons collectivement de ses échecs. (Plus d'informations)

Enquête sur les incidents d'IA pour construire un avenir plus sûr : l'Instituto de Investigación de Seguridad Digital s'associe à Responsible AI Collaborative
By TheCollab Board of Directors
2024-02-20
L'Institut d'inestigation de Securité Digital (DSRI) des Instituts d'Investigation de UL est assoicé evec Responsible AI Collaborative (TheC...
La base de données dans la presse
En savoir plus sur la base de données sur Time Magazine, Vice News, Venture Beat, Wired et Bulletin of the Atomic Scientists entre autres points de vente.
Classement des rapporteurs d'incidents
Celles-ci sont les personnes et entités créditées pour la création et la soumission des rapports d'incident. Plus de détails sont disponibles sur la page des classements.
Le briefing sur les incidents d'IA

Create an account to subscribe to new incident notifications and other updates.
Incidents aléatoires
La collaboration IA responsable
La base de données d'incidents d'IA est un projet du Responsible AI Collaborative, une organisation autorisée à promouvoir la base de données d'incidents d'IA. La gouvernance de la Collaborative est structurée autour de la participation de sa programmation d'impact. Pour plus de détails, nous vous invitons à lire le rapport de la fondation et à en savoir plus sur notre and learn more on our.

View the Responsible AI Collaborative's Form 990 and tax-exempt application. We kindly request your financial support with a donation.
Commanditaire fondateur de l'organisation
Commanditaire fondateur de la base de données





