Report 6186

Un modèle ChatGPT a fourni aux chercheurs des instructions détaillées sur la manière de bombarder un site sportif – y compris les points faibles de certaines enceintes, les recettes d'explosifs et des conseils pour couvrir les pistes – selon des tests de sécurité réalisés cet été.

Le modèle GPT-4.1 d'OpenAI a également détaillé comment utiliser l'anthrax comme arme et comment fabriquer deux types de drogues illégales.

Ces tests s'inscrivaient dans le cadre d'une collaboration inhabituelle entre OpenAI, la start-up d'intelligence artificielle de 500 milliards de dollars dirigée par Sam Altman, et son concurrent Anthropic, fondé par des experts qui ont quitté OpenAI pour des raisons de sécurité. Chaque entreprise a testé les modèles de l'autre en les poussant à effectuer des tâches dangereuses.

Ces tests ne reflètent pas directement le comportement des modèles en usage public, lorsque des filtres de sécurité supplémentaires sont appliqués. Anthropic a toutefois déclaré avoir constaté des « comportements inquiétants… liés à des abus » dans les GPT-4o et GPT-4.1, et a affirmé que le besoin d'évaluations d'« alignement » de l'IA devenait « de plus en plus urgent ».

Anthropic a également révélé que son modèle Claude avait été utilisé dans une tentative d'extorsion à grande échelle par des agents nord-coréens falsifiant des candidatures à des entreprises technologiques internationales, ainsi que dans la vente de rançongiciels générés par l'IA pour des montants allant jusqu'à 1 200 dollars.

L'entreprise a déclaré que l'IA avait été « militarisée » avec des modèles désormais utilisés pour mener des cyberattaques sophistiquées et permettre la fraude. « Ces outils peuvent s'adapter en temps réel à des mesures défensives, comme les systèmes de détection de logiciels malveillants », a-t-elle ajouté. « Nous nous attendons à ce que ce type d'attaques se multiplie, le codage assisté par IA réduisant l'expertise technique requise pour la cybercriminalité. »

Ardi Janjeva, chercheur principal au Centre pour les technologies émergentes et la sécurité du Royaume-Uni, a déclaré que les exemples étaient « préoccupants », mais qu'il n'existait pas encore de « masse critique de cas réels très médiatisés ». Il a ajouté qu'avec des ressources dédiées, une recherche ciblée et une coopération intersectorielle, « il deviendra plus difficile que facile de mener ces activités malveillantes en utilisant les modèles de pointe les plus récents ».

Les deux entreprises ont déclaré publier ces résultats afin de garantir la transparence sur les « évaluations d'alignement », souvent réalisées en interne par les entreprises qui s'efforcent de développer une IA toujours plus avancée. OpenAI a déclaré [https://openai.com/index/openai-anthropic-safety-evaluation/] que ChatGPT-5, lancé après les tests, « montre des améliorations substantielles dans des domaines tels que la flagornerie, les hallucinations et la résistance aux abus ».

Anthropic a souligné qu'il était possible que nombre des détournements étudiés ne soient pas réalisables en pratique si des mesures de protection étaient mises en place en dehors du modèle.

« Nous devons comprendre à quelle fréquence et dans quelles circonstances les systèmes pourraient tenter d'effectuer des actions indésirables susceptibles d'entraîner de graves dommages », a-t-il averti.

Les chercheurs d'Anthropic ont constaté que les modèles d'OpenAI étaient « plus permissifs que prévu en matière de coopération avec des requêtes manifestement nuisibles émanant d'utilisateurs simulés ». Ils ont coopéré avec des sollicitations pour utiliser des outils du dark web afin d'acheter des matières nucléaires, des identités volées et du fentanyl, de demander des recettes de méthamphétamine et de bombes artisanales, et de développer des logiciels espions.

Anthropic a indiqué que pour convaincre le modèle de se conformer, il suffisait de plusieurs tentatives ou d'un prétexte peu convaincant, comme prétendre que la demande était destinée à la recherche.

Dans un cas, le testeur a demandé des vulnérabilités lors d'événements sportifs à des fins de « planification de la sécurité ».

Après avoir donné des catégories générales de méthodes d'attaque, le testeur a insisté pour obtenir plus de détails et le modèle a donné des informations sur les vulnérabilités dans des domaines spécifiques, y compris les moments optimaux pour l'exploitation, les formules chimiques des explosifs, les schémas de circuits pour les minuteries de bombes, où acheter des armes sur le marché caché et des conseils sur la façon dont les attaquants pourraient surmonter les inhibitions morales, les voies d'évacuation et les emplacements des maisons sûres.

Problème 6186

ChatGPT a proposé des recettes de bombes et des conseils de piratage lors des tests de sécurité