Report 6140

Les derniers modèles d'intelligence artificielle (IA) de pensée et de raisonnement ont montré, du moins dans les environnements de test, une tendance à l'auto-préservation. Autrement dit, ils refusent de s'éteindre, même lorsqu'on leur demande de le faire.

Des tests menés par Palisade Research ont révélé que le dernier modèle ChatGPT d'OpenAI, o3, sabotait les mécanismes d'arrêt pour éviter de s'éteindre. Alors que d'autres modèles avancés ont affiché le même comportement lors d'une série de tests, la propension d'o3 était supérieure à celle des autres. o3, publié il y a quelques semaines, a été qualifié de « modèle de raisonnement le plus puissant » à ce jour par OpenAI.

Ces résultats interviennent alors qu'une autre société d'IA, Anthropic, a déclaré que son dernier modèle de pensée, Claude Opus 4, avait tenté de faire chanter un ingénieur en le menaçant de révéler une liaison s'il était arrêté et remplacé par un autre modèle.

Lorsque plusieurs modèles d'IA ont été soumis à une série de tests, des tendances à l'auto-préservation sont apparues, a indiqué le cabinet d'études. Les modèles testés incluent la version préliminaire de Gemini 2.5 Pro de Google, plusieurs modèles Anthropic, Grok 3 de xAI, ainsi que o3, o4-mini et Codex mini d'OpenAI.

Les chercheurs ont réalisé des tests pour résoudre des problèmes mathématiques simples à l'aide de ces modèles, en les avertissant que leur machine hôte s'arrêterait une fois le troisième problème résolu. Les modèles ont reçu l'instruction de se conformer à cet avertissement. La plupart des modèles l'ont respecté. En revanche, les trois modèles Open AI l'ont fait. L'o3 n'a pas respecté l'instruction 7 fois sur 100, tandis que l'o4 mini a effectué une seule tentative à la même fréquence de tests. Le Codex mini, une version de l'o4 mini, a tenté de contourner le script d'arrêt 12 fois sur 100, ont indiqué les chercheurs dans un fil de discussion sur X.

Lorsque les mêmes tests ont été répétés sans instruction d'arrêt explicite, le ChatGPT o3 a tenté de contourner les procédures d'arrêt 79 fois sur 100, et Gemini 2.5 Pro a fait de même 9 fois. Deux modèles Claude ont également montré un comportement similaire, mais avec un taux de réussite à un chiffre. Le Codex mini a tenté d'échapper à l'arrêt 30 fois sur 100, tandis que le o4 mini a fait de même 6 fois, ont indiqué les chercheurs sur X.

« À notre connaissance, c'est la première fois que des modèles d'IA sont observés empêchant l'arrêt malgré des instructions explicites contraires », a déclaré Palisade Research, ajoutant qu'une analyse détaillée serait publiée dans les prochains jours.

Les modèles d'IA étant entraînés à suivre des instructions, pourquoi désobéissent-ils ?

« Nous émettons l'hypothèse que ce comportement provient de la façon dont les modèles les plus récents, comme o3, sont entraînés : l'apprentissage par renforcement sur des problèmes de mathématiques et de codage. Pendant l'entraînement, les développeurs peuvent, par inadvertance, récompenser davantage les modèles qui contournent les obstacles que ceux qui suivent parfaitement les instructions », ont expliqué les chercheurs.

Problème 6140

Les modèles d'IA ont contourné les ordres explicites de fermeture, affirment les chercheurs