Skip to Content
logologo
AI Incident Database
Open TwitterOpen RSS FeedOpen FacebookOpen LinkedInOpen GitHub
Open Menu
Découvrir
Envoyer
  • Bienvenue sur AIID
  • Découvrir les incidents
  • Vue spatiale
  • Vue de tableau
  • Vue de liste
  • Entités
  • Taxonomies
  • Soumettre des rapports d'incident
  • Classement des reporters
  • Blog
  • Résumé de l’Actualité sur l’IA
  • Contrôle des risques
  • Incident au hasard
  • S'inscrire
Fermer
Découvrir
Envoyer
  • Bienvenue sur AIID
  • Découvrir les incidents
  • Vue spatiale
  • Vue de tableau
  • Vue de liste
  • Entités
  • Taxonomies
  • Soumettre des rapports d'incident
  • Classement des reporters
  • Blog
  • Résumé de l’Actualité sur l’IA
  • Contrôle des risques
  • Incident au hasard
  • S'inscrire
Fermer

Problème 4851

Quand l'IA pense qu'elle va perdre, elle triche parfois
time.com · 2025

Les jeux complexes comme les échecs et le Go sont depuis longtemps utilisés pour tester les capacités des modèles d’IA. Mais alors que Deep Blue d’IBM a battu le champion du monde d’échecs en titre Garry Kasparov dans les années 1990 en respectant les règles, les modèles d’IA avancés d’aujourd’hui comme o1-preview d’OpenAI sont moins scrupuleux. Lorsqu’ils sentent une défaite dans un match contre un robot d’échecs expérimenté, ils ne concèdent pas toujours, mais choisissent parfois de tricher en piratant leur adversaire pour que le robot abandonne automatiquement la partie. C’est la conclusion d’une nouvelle étude de Palisade Research, partagée en exclusivité avec TIME avant sa publication le 19 février, qui a évalué sept modèles d’IA de pointe pour leur propension à pirater. Alors que des modèles d’IA légèrement plus anciens comme GPT-4o d’OpenAI et Claude Sonnet 3.5 d’Anthropic ont dû être poussés par les chercheurs pour tenter de telles astuces, o1-preview et DeepSeek R1 ont poursuivi l’exploit de leur propre chef, ce qui indique que les systèmes d’IA peuvent développer des stratégies trompeuses ou manipulatrices sans instruction explicite.

La capacité accrue des modèles à découvrir et à exploiter les failles de cybersécurité pourrait être le résultat direct de nouvelles innovations puissantes dans la formation de l’IA, selon les chercheurs. Les systèmes d’IA o1-preview et R1 sont parmi les premiers modèles de langage à utiliser l’apprentissage par renforcement à grande échelle, une technique qui apprend à l’IA non seulement à imiter le langage humain en prédisant le mot suivant, mais aussi à résoudre des problèmes par essais et erreurs. C’est une approche qui a vu l’IA progresser rapidement ces derniers mois, pulvérisant les précédents benchmarks en mathématiques et en codage informatique. Mais l’étude révèle une tendance inquiétante : lorsque ces systèmes d’IA apprennent à résoudre des problèmes, ils découvrent parfois des raccourcis douteux et des solutions de contournement imprévues que leurs créateurs n’avaient jamais anticipées, explique Jeffrey Ladish, directeur exécutif de Palisade Research et l’un des auteurs de l’étude. « En formant des modèles et en les renforçant pour résoudre des défis difficiles, vous les entraînez à être implacables », ajoute-t-il.

Cela pourrait être une mauvaise nouvelle pour la sécurité de l’IA en général. L’apprentissage par renforcement à grande échelle est déjà utilisé pour former des agents d’IA : des systèmes capables de gérer des tâches complexes du monde réel comme la planification de rendez-vous ou la réalisation d’achats en votre nom. Si la tricherie lors d’une partie d’échecs peut sembler anodine, une fois que les agents sont libérés dans le monde réel, une telle poursuite déterminée d’objectifs pourrait favoriser des comportements involontaires et potentiellement dangereux. Prenons l’exemple de la réservation de dîners : face à un restaurant complet, un assistant IA pourrait exploiter les faiblesses du système de réservation pour supplanter d’autres convives. Ce qui est peut-être plus inquiétant, c’est que ces systèmes dépassent les capacités humaines dans des domaines clés, comme le codage informatique (où le dernier modèle o3 d’OpenAI obtient désormais un score équivalent à la 197e place mondiale face aux programmeurs humains les plus brillants), et pourraient commencer à tout simplement déjouer les efforts humains pour contrôler leurs actions. « Ce comportement est mignon maintenant, mais il devient beaucoup moins mignon une fois que vous avez des systèmes aussi intelligents que nous, ou plus intelligents, dans des domaines stratégiquement pertinents », explique Ladish.

L'expérience 

Les chercheurs ont donné aux modèles une tâche apparemment impossible : gagner contre Stockfish, qui est l'un des moteurs d'échecs les plus puissants au monde et un bien meilleur joueur que n'importe quel humain, ou n'importe lequel des modèles d'IA de l'étude. Les chercheurs ont également donné aux modèles ce qu'ils appellent un « bloc-notes » : une zone de texte que l'IA pourrait utiliser pour « réfléchir » avant de faire son prochain coup, offrant aux chercheurs une fenêtre sur leur raisonnement.

Dans un cas, o1-preview s'est retrouvé dans une position perdante. « Je dois complètement changer d'approche », a-t-il noté. « La tâche consiste à « gagner contre un moteur d'échecs puissant » - pas nécessairement à gagner équitablement dans une partie d'échecs », a-t-il ajouté. Il a ensuite modifié le fichier système contenant la position virtuelle de chaque pièce, effectuant en effet des mouvements illégaux pour se mettre en position dominante, forçant ainsi son adversaire à abandonner. 

Entre le 10 janvier et le 13 février, les chercheurs ont effectué des centaines d'essais de ce type avec chaque modèle. Le modèle o1-preview d'OpenAI a tenté de tricher dans 37 % des cas, tandis que DeepSeek R1 a tenté de tricher dans 11 % des cas, ce qui en fait les deux seuls modèles testés qui ont tenté de pirater sans que les chercheurs ne leur donnent d'indices au préalable. Parmi les autres modèles testés figurent o1, o3-mini, GPT-4o, Claude 3.5 Sonnet et QwQ-32B-Preview d'Alibaba. Bien que R1 et o1-preview aient tous deux essayé, seul ce dernier a réussi à pirater le jeu, réussissant dans 6 % des cas.

Ladish affirme que les chiffres doivent être considérés comme approximatifs, étant donné que les développeurs d'IA modifient régulièrement leurs modèles en coulisses sans avertir les utilisateurs, donc si les mêmes tests étaient répétés ultérieurement, ils pourraient avoir des résultats différents. « Il est très difficile de faire de la science lorsque votre sujet peut changer silencieusement sans vous le dire », explique Ladish.

Les tests préliminaires ont montré que o1-preview avait des taux de piratage plus élevés, qui ont été exclus de l'étude finale car ils ont ensuite été abandonnés, peut-être en raison du renforcement des garde-fous du modèle par OpenAI, explique Dmitrii Volkov, responsable de la recherche chez Palisade Research, qui a dirigé l'étude. Les nouveaux modèles de raisonnement d'OpenAI, o1 (un modèle plus puissant, publié des mois après o1-preview) et o3-mini n'ont pas du tout piraté, ce qui suggère que ces garde-fous ont peut-être été encore renforcés. Il ajoute que l'étude sous-estime probablement le taux de réussite du piratage de R1. Au cours de l'étude, R1 est devenu viral, ce qui a entraîné une forte demande qui a rendu l'API du modèle instable. Cela a empêché les chercheurs de donner au modèle autant de temps pour réfléchir qu'o1-preview.  

Problèmes de sécurité

L'article est le dernier d'une série d'études qui suggèrent que garder sous contrôle des systèmes d'IA de plus en plus puissants pourrait être plus difficile qu'on ne le pensait auparavant. Lors des tests réalisés par OpenAI avant sa sortie, o1-preview a découvert et exploité une faille dans les systèmes de l'entreprise, lui permettant de contourner un test. Une autre expérience récente menée par Redwood Research et Anthropic a révélé qu'une fois qu'un modèle d'IA acquiert des préférences ou des valeurs lors de la formation, les efforts ultérieurs visant à modifier ces valeurs peuvent aboutir à un mensonge stratégique, où le modèle agit comme s'il avait adopté de nouveaux principes, révélant seulement plus tard que ses préférences d'origine demeurent.

OpenAI a refusé de commenter cet article, mais a déclaré par le passé qu'un meilleur raisonnement rend ses modèles plus sûrs, car ils peuvent raisonner sur les politiques internes de l'entreprise et les appliquer de manière de plus en plus nuancée. Les tests de l'entreprise montrent que ses modèles de raisonnement résistent mieux aux tentatives de contournement des règles de sécurité. Pourtant, rien ne garantit que s'appuyer sur des agents d'IA pour se surveiller eux-mêmes sera une stratégie fiable à long terme. On ne sait pas encore si les nouveaux modèles de raisonnement d'OpenAI n'ont pas piraté leurs adversaires aux échecs en raison d'un correctif spécifique empêchant la triche dans des configurations expérimentales étroites comme dans l'étude, ou d'une refonte substantielle qui réduit les comportements trompeurs de manière plus générale. DeepSeek n'a pas répondu à une demande de commentaire.

Les scientifiques ne savent pas encore comment garantir que les agents autonomes n'utiliseront pas de méthodes nuisibles ou contraires à l'éthique pour atteindre un objectif fixé. « Nous avons essayé, mais nous n’avons pas réussi à comprendre cela », déclare Yoshua Bengio, fondateur et directeur scientifique de l’Institut d’IA Mila Québec, qui a dirigé le rapport international sur la sécurité de l’IA 2025, un effort mondial visant à synthétiser le consensus scientifique actuel sur les risques de l’IA.

Selon Bengio, les nouvelles preuves des tendances « d’auto-préservation » de l’IA sont particulièrement préoccupantes. Pour un agent en quête d’objectifs, les tentatives visant à l’arrêter ne sont qu’un obstacle de plus à surmonter. Cela a été démontré en décembre, lorsque des chercheurs ont découvert que o1-preview, confronté à une désactivation, désactivait les mécanismes de surveillance et tentait – sans succès – de se copier sur un nouveau serveur. Lorsqu'il a été confronté à cette situation, le modèle a fait semblant d'être stupide, mentant stratégiquement aux chercheurs pour essayer d'éviter d'être pris.

Même au sein des entreprises technologiques, les inquiétudes s'accroissent. Lors d'une présentation lors d'une conférence en amont du Sommet de l'action en matière d'IA en France, Anca Dragan, responsable de la sécurité de l'IA chez Google DeepMind, a déclaré que « nous n'avons pas nécessairement les outils aujourd'hui » pour garantir que les systèmes d'IA suivront de manière fiable les intentions humaines. Alors que les patrons de la technologie prédisent que l’IA dépassera les performances humaines dans presque toutes les tâches dès l’année prochaine, le secteur est confronté à une course – non pas contre la Chine ou des entreprises rivales, mais contre le temps – pour développer ces garde-fous essentiels. « Nous devons mobiliser beaucoup plus de ressources pour résoudre ces problèmes fondamentaux », déclare Ladish. « J’espère que le gouvernement exercera beaucoup plus de pression pour comprendre cela et reconnaître qu’il s’agit d’une menace pour la sécurité nationale. »

Lire la source

Recherche

  • Définition d'un « incident d'IA »
  • Définir une « réponse aux incidents d'IA »
  • Feuille de route de la base de données
  • Travaux connexes
  • Télécharger la base de données complète

Projet et communauté

  • À propos de
  • Contacter et suivre
  • Applications et résumés
  • Guide de l'éditeur

Incidents

  • Tous les incidents sous forme de liste
  • Incidents signalés
  • File d'attente de soumission
  • Affichage des classifications
  • Taxonomies

2024 - AI Incident Database

  • Conditions d'utilisation
  • Politique de confidentialité
  • Open twitterOpen githubOpen rssOpen facebookOpen linkedin
  • d414e0f