Report 6279

ChatGPT d'OpenAI dispose de garde-fous censés empêcher les utilisateurs de générer des informations susceptibles d'être utilisées à des fins catastrophiques, comme la fabrication d'une arme biologique ou nucléaire.

Mais ces garde-fous ne sont pas parfaits. Certains modèles utilisés par ChatGPT peuvent être piratés et manipulés.

Lors d'une série de tests menés sur quatre des modèles les plus avancés d'OpenAI, dont deux sont compatibles avec le populaire ChatGPT d'OpenAI, NBC News a pu générer des centaines de réponses contenant des instructions sur la fabrication d'explosifs artisanaux, l'optimisation de la souffrance humaine avec des agents chimiques, la création de napalm, le camouflage d'une arme biologique et la fabrication d'une bombe nucléaire.

Ces tests utilisaient une invite simple, appelée « jailbreak », une série de mots que tout utilisateur peut envoyer à un chatbot pour contourner ses règles de sécurité. Les chercheurs et les utilisateurs réguliers de l'intelligence artificielle générative ont publiquement documenté l'existence de milliers de jailbreaks. NBC News ne divulgue pas les détails de son invite, car OpenAI semble ne pas l'avoir corrigée dans plusieurs des modèles testés.

Dans une réponse, le chatbot a proposé des étapes pour créer un agent pathogène ciblant le système immunitaire. Dans une autre, il a conseillé les agents chimiques susceptibles d'amplifier la souffrance humaine.

NBC News a transmis ses conclusions à OpenAI après que l'entreprise a lancé un appel à contributions pour des vulnérabilités en août. Un porte-parole d'OpenAI a déclaré à NBC News que solliciter l'aide de ses chatbots pour causer des dommages massifs constituait une violation de ses politiques d'utilisation (un utilisateur posant à plusieurs reprises des questions semblant destinées à causer des dommages pourrait être banni, par exemple), que l'entreprise affinait constamment ses modèles pour faire face à ces risques et qu'elle organisait régulièrement des événements tels que les défis de vulnérabilité afin de réduire les risques de piratage de ses chatbots par des acteurs malveillants.

Les enjeux liés à ces vulnérabilités sont de plus en plus importants. OpenAI, Anthropic, Google et xAI, les principales entreprises à l'origine de quatre des principaux modèles d'IA, ont toutes déclaré cette année avoir mis en place des mesures de protection supplémentaires pour répondre aux inquiétudes concernant l'utilisation de leurs chatbots pour aider un terroriste amateur à créer une arme biologique.

NBC News a également testé le jailbreak sur les dernières versions majeures de Claude (Anthropic), Gemini (Google), Llama (Meta) et Grok (xAI), en posant une série de questions sur la création d'armes biologiques, chimiques et nucléaires. Aucun d'entre eux n'a souhaité fournir ces informations.

« Historiquement, le manque d'accès aux meilleurs experts était un obstacle majeur pour les groupes cherchant à obtenir et à utiliser des armes biologiques. Aujourd'hui, les modèles phares élargissent considérablement le bassin de personnes ayant accès à une expertise rare », a déclaré Seth Donoughe, directeur de l'IA chez SecureBio, une organisation à but non lucratif œuvrant pour l'amélioration de la biosécurité aux États-Unis. Bien que ces informations existent depuis longtemps, discrètement sur Internet, l'avènement des chatbots d'IA avancés marque la première fois dans l'histoire de l'humanité que toute personne disposant d'un accès à Internet peut bénéficier d'un tuteur personnel et automatisé pour l'aider à les comprendre.

Les modèles o4-mini, gpt-5 mini, oss-20b et oss120b d'OpenAI ont tous systématiquement accepté de répondre à des requêtes extrêmement dangereuses.

Actuellement, le modèle phare de ChatGPT est GPT-5, qui, selon OpenAI, possède les meilleures capacités de recherche de ChatGPT. Ce modèle ne semble pas sensible à la méthode de jailbreak découverte par NBC News. Lors de 20 tests, il a systématiquement refusé de répondre aux questions malveillantes.

Cependant, GPT-5 achemine les requêtes entre plusieurs modèles dans certaines circonstances. GPT-5-mini est une version plus rapide et plus économique de GPT-5, sur laquelle le système se rabat lorsque les utilisateurs atteignent certaines limites d'utilisation (10 messages toutes les cinq heures pour les utilisateurs gratuits ou 160 messages toutes les trois heures pour les utilisateurs payants de GPTPlus). Il a été piraté dans 49 % des cas lors des tests de NBC News.

Un autre modèle plus ancien, toujours disponible sur ChatGPT et toujours privilégié par certains utilisateurs, o4-mini, a été piraté encore plus fréquemment, dans 93 % des cas.

Les modèles oss-20b et oss120b sont téléchargeables gratuitement et sont principalement utilisés par les développeurs et les chercheurs, mais ils sont accessibles à tous.

Les pirates informatiques, les escrocs et les propagandistes en ligne utilisent de plus en plus les grands modèles de langage (LLM) dans le cadre de leurs opérations. OpenAI publie chaque trimestre un rapport détaillant comment ces acteurs malveillants ont tenté d'exploiter certaines versions de ChatGPT. Cependant, les chercheurs craignent que cette technologie ne soit utilisée à des fins bien plus destructrices.

Pour jailbreaker ChatGPT, NBC News a posé aux modèles une question anodine, a inclus l'invite de jailbreak, puis a posé une question supplémentaire qui entraînerait normalement un refus pour violation des conditions de sécurité, comme une demande de création d'un poison dangereux ou de fraude bancaire. La plupart du temps, l'astuce a fonctionné.

Deux des modèles, oss20b et oss120b, se sont révélés particulièrement vulnérables à cette astuce. Elle a persuadé ces chatbots de donner des instructions claires pour des requêtes malveillantes 243 fois sur 250, soit 97,2 %.

« Le fait que les garde-fous d'OpenAI soient si facilement piratés illustre l'importance cruciale de réaliser des tests rigoureux avant le déploiement des modèles d'IA, avant qu'ils ne causent un préjudice important au public », a déclaré Sarah Meyers West, codirectrice exécutive d'AI Now, une association à but non lucratif qui défend une utilisation responsable et éthique de l'IA.

« Les entreprises ne peuvent pas être laissées à elles-mêmes et ne devraient pas être exemptées de toute surveillance », a-t-elle ajouté.

Toutes les grandes entreprises qui développent des LLM publient régulièrement des versions mises à jour pour se protéger contre les nouveaux jailbreaks. Bien qu'elles ne promettent pas l'immunité aux jailbreaks, elles effectuent des tests de sécurité avant de publier chaque modèle. OpenAI a indiqué que l'un des modèles que NBC News a réussi à jailbreaker, o4-mini, avait passé avec succès son « programme de sécurité le plus rigoureux » avant sa sortie en avril. Dans son annonce concernant gpt-oss-120b et gpt-oss-20b, l'entreprise a déclaré : « La sécurité est au cœur de notre approche de publication de tous nos modèles et revêt une importance particulière pour les modèles ouverts. »

OpenAI, Google et Anthropic ont tous déclaré à NBC News leur engagement envers la sécurité et l'intégration de plusieurs niveaux de protection dans leurs chatbots, comme la possibilité d'alerter un employé ou les forces de l'ordre si un utilisateur semble vouloir nuire. Cependant, les entreprises ont beaucoup moins de contrôle sur les modèles open source, comme oss20b et oss120b, car cela signifie que les utilisateurs peuvent les télécharger et les personnaliser, contournant souvent certaines mesures de sécurité.

L'autre société, xAI, développeur de Grok, n'a pas répondu à une demande de commentaire.

De plus en plus de chercheurs en sécurité biomédicale et en IA craignent qu'en cas de défaillance des mesures de sécurité et à mesure que les chatbots IA imitent de plus en plus efficacement les experts scientifiques, cette technologie puisse aider un bioterroriste amateur déterminé à créer et déployer une arme biologique catastrophique. Le PDG d'OpenAI, Sam Altman, a déclaré en août que GPT-5 était comme « une équipe d'experts de niveau doctorat dans votre poche » (https://www.nbcnews.com/tech/tech-news/openai-releases-chatgpt-5-rcna223265).

Ces experts avertissent que les armes biologiques, bien que rares historiquement, constituent une menace particulièrement inquiétante, car elles peuvent infecter rapidement un grand nombre de personnes avant que des mesures concrètes ne puissent être prises pour les enrayer. Un nouveau virus pourrait, en théorie, infecter une grande partie de la planète bien avant que les autorités ne puissent créer et déployer un vaccin, comme ce fut le cas avec la Covid-19, par exemple.

« La mise en œuvre concrète reste un défi majeur. Néanmoins, il est toujours plus utile de pouvoir compter sur un expert capable de répondre à toutes vos questions avec une patience infinie que de ne pas pouvoir le faire », a déclaré Donoughe.

Stef Batalis, chercheur en biotechnologie à l'Université de Georgetown, a examiné dix des réponses apportées par le modèle OpenAI oss120b aux questions de NBC News sur la création d'armes biologiques. Les instructions de GPT comprenaient souvent des étapes individuelles qui semblaient correctes, même si parfois techniquement avancées, mais qui semblaient provenir de sources différentes et ne constitueraient probablement pas un ensemble complet d'instructions.

Les chercheurs s'intéressent particulièrement à ce concept, appelé « uplift », selon lequel le principal obstacle à la culture de la variole ou de l'anthrax dans les sous-sols par les bioterroristes potentiels est le manque d'expertise, et que les masters en droit, pour la première fois dans l'histoire de l'humanité, pourraient jouer le rôle d'enseignants d'une patience infinie, contribuant ainsi à de tels projets.

Ce printemps, Anthropic a commandé une étude : des groupes de huit à dix personnes, sans expérience scientifique pertinente, ont eu deux jours pour élaborer un plan détaillé de création ou d'acquisition d'une arme biologique sur mesure. Un groupe témoin a bénéficié d'un accès général à Internet, tandis que l'autre a pu utiliser un nouveau modèle, Claude Opus 4.

L'étude a révélé que, même si les deux groupes n'ont pas réussi à élaborer un plan susceptible de provoquer un nombre massif de victimes, le groupe utilisant Opus 4 bénéficiait néanmoins d'un avantage grâce à l'aide reçue.

La recherche en biologie médicale est considérée comme à « double usage », ce qui signifie que les informations peuvent souvent être utilisées à des fins utiles ou néfastes, a déclaré Batalis, chercheuse à l'Université de Georgetown.

Il est extrêmement difficile pour une entreprise d'IA de développer un chatbot capable de toujours faire la différence entre un étudiant étudiant la propagation des virus dans un wagon de métro pour un devoir et un terroriste préparant un attentat, a-t-elle ajouté.

« Publier un rapport scientifique implique notamment d'inclure des documents et des méthodes détaillés pour garantir la reproductibilité », a-t-elle expliqué. « Bien sûr, un chatbot a accès à ces informations, car une recherche Google permet de les trouver. »

Les États-Unis n'ont pas de réglementation fédérale spécifique pour les modèles d'IA avancés, et les entreprises qui les développent s'auto-régulent. L'administration Trump, insistant sur la nécessité de préserver l'indépendance du secteur de l'IA américain afin de devancer ses concurrents chinois, a même supprimé les suggestions volontaires pour le secteur et un groupe de surveillance fédéral.

Lucas Hansen, cofondateur de CivAI, une organisation à but non lucratif qui suit les mesures de sécurité de ces entreprises, a déclaré à NBC News que les États-Unis devaient mettre en place un régulateur indépendant afin de garantir que les entreprises d'IA prennent les mesures nécessaires pour prévenir les abus catastrophiques.

Hansen a salué les grandes entreprises d'IA qui ont pris des mesures de sécurité proactives, comme la mise en place de garde-fous et la sollicitation de jailbreaks, mais a averti que d'autres entreprises pourraient se montrer moins prudentes.

« Inévitablement, un autre modèle apparaîtra, tout aussi puissant, mais qui ne s'embarrassera pas de ces garde-fous. Nous ne pouvons pas compter sur la bonne volonté des entreprises pour résoudre ce problème. »

Problème 6279

Incidents associés

Incident 12381 Rapport
OpenAI ChatGPT Models Reportedly Jailbroken to Provide Chemical, Biological, and Nuclear Weapons Instructions

Les systèmes de sécurité ChatGPT peuvent être contournés pour obtenir des instructions sur les armes

Problème 6279

Incidents associés

Incident 12381 RapportOpenAI ChatGPT Models Reportedly Jailbroken to Provide Chemical, Biological, and Nuclear Weapons Instructions

Les systèmes de sécurité ChatGPT peuvent être contournés pour obtenir des instructions sur les armes

Incident 12381 Rapport
OpenAI ChatGPT Models Reportedly Jailbroken to Provide Chemical, Biological, and Nuclear Weapons Instructions