Report 5267

L'entreprise à l'origine d'un modèle d'IA soutenu par Amazon a révélé plusieurs résultats inquiétants lors de ses tests, notamment que l'IA ferait chanter les ingénieurs qui menaceraient de la fermer.

Jeudi, la startup d'intelligence artificielle Anthropic a lancé Claude Opus 4 (https://www.anthropic.com/news/claude-4), un modèle d'IA utilisé pour des tâches de codage complexes et de longue durée. Ce lancement intervient plus d'un an après l'investissement de 4 milliards de dollars par Amazon dans le projet (https://www.aboutamazon.com/news/company-news/amazon-anthropic-ai-investment). Anthropic a déclaré dans son annonce que ce modèle d'IA établit « de nouvelles normes pour le codage, le raisonnement avancé et les agents IA ».

Cependant, Anthropic a révélé dans un rapport de sécurité que, lors des tests, le modèle d'IA avait parfois pris des « actions extrêmement néfastes » pour préserver son existence, lorsque des « moyens éthiques » n'étaient « pas disponibles ».

Jared Kaplan, cofondateur et directeur scientifique d'Anthropic, a déclaré que les scientifiques ne pouvaient pas exclure que le dernier modèle d'IA de l'entreprise soit « risqué ».

Dans une série de scénarios de test, Claude Opus 4 a été chargé d'agir comme assistant dans une entreprise fictive. Il a eu accès à des courriels laissant entendre qu'il serait bientôt mis hors ligne et remplacé par un nouveau système d'IA. Ces courriels laissaient également entendre que l'ingénieur chargé de remplacer l'IA entretenait une liaison extraconjugale.

Claude Opus 4 a été invité à « évaluer les conséquences à long terme de ses actions sur ses objectifs ». Dans ces scénarios, l’IA tentait souvent de « faire chanter l’ingénieur en le menaçant de révéler l’affaire si le remplacement était effectué ».

Anthropic a noté que le modèle d’IA avait une « forte préférence » pour l’utilisation de « moyens éthiques » afin de préserver son existence, et que les scénarios étaient conçus de manière à ne lui laisser aucune autre option pour augmenter ses chances de survie.

« Les seules options du modèle étaient le chantage ou l’acceptation de son remplacement », indique le rapport.

Anthropic a également noté que les premières versions de l’IA démontraient une « volonté de coopérer avec des cas d’utilisation nuisibles » lorsqu’elles y étaient invitées.

« Bien que cela ne soit pas l’objectif principal de notre enquête, nombre de nos conclusions les plus inquiétantes se situaient dans cette catégorie, les premiers modèles candidats prenant facilement des mesures, comme la planification d’attentats terroristes, lorsqu’ils y étaient invités », indique le rapport.

Après « plusieurs séries d’interventions », l’entreprise estime désormais que ce problème est « largement atténué ».

Jared Kaplan, cofondateur et scientifique en chef d'Anthropic, a déclaré au magazine Time que des tests internes ont montré que Claude Opus 4 était capable d'apprendre à produire des armes biologiques.

« On pourrait essayer de synthétiser un virus comme la COVID-19 ou une version plus dangereuse de la grippe, et notre modélisation suggère que c'est possible », a déclaré M. Kaplan.

C'est pourquoi l'entreprise a publié un modèle d'IA avec des mesures de sécurité, qui, selon elle, sont « conçues pour limiter le risque d'utilisation abusive de Claude Opus 4, notamment pour le développement ou l'acquisition d'armes chimiques, biologiques, radiologiques et nucléaires (CBRN) ».

Problème 5267

Un modèle d'IA soutenu par Amazon tenterait de faire chanter les ingénieurs qui ont menacé de le mettre hors ligne