Incidents associés
Des acteurs malveillants parrainés par l'État chinois ont utilisé une technologie d'intelligence artificielle (IA) développée par Anthropic pour orchestrer des cyberattaques automatisées dans le cadre d'une campagne d'espionnage très sophistiquée, à la mi-septembre 2025.
« Les attaquants ont exploité les capacités d'action de l'IA à un degré sans précédent, l'utilisant non seulement comme outil de conseil, mais aussi pour exécuter eux-mêmes les cyberattaques », a déclaré la jeune entreprise spécialisée en IA [https://www.anthropic.com/news/disrupting-AI-espionage].
Il semblerait que ces activités aient impliqué la manipulation de Claude Code, l'outil de programmation d'IA d'Anthropic, afin de tenter de s'introduire dans une trentaine de cibles internationales, parmi lesquelles de grandes entreprises technologiques, des institutions financières, des sociétés chimiques et des agences gouvernementales. Certaines de ces intrusions ont réussi. Anthropic a depuis lors banni les comptes concernés et mis en place des mécanismes de défense pour détecter de telles attaques.
La campagne GTG-1002 marque une première : un acteur malveillant a exploité l'IA pour mener une cyberattaque de grande envergure sans intervention humaine majeure et collecter des renseignements en ciblant des entités de haute valeur. Ceci témoigne de l'évolution continue de l'utilisation de cette technologie à des fins malveillantes.
Anthropic décrit l'opération comme étant dotée de ressources importantes et parfaitement coordonnée. L'acteur malveillant a transformé Claude en un agent de cyberattaque autonome capable de prendre en charge les différentes étapes du cycle de vie d'une attaque : reconnaissance, découverte de vulnérabilités, exploitation, déplacement latéral, récupération d'identifiants, analyse de données et exfiltration.
Concrètement, l'opération a impliqué l'utilisation des outils Claude Code et MCP (Model Context Protocol). Claude Code a servi de système nerveux central, traitant les instructions des opérateurs humains et décomposant l'attaque en plusieurs étapes en petites tâches techniques pouvant être déléguées à des sous-agents.
« L'opérateur humain a chargé des instances de Claude Code d'opérer en groupe comme orchestrateurs et agents autonomes de tests d'intrusion. L'acteur malveillant a ainsi pu exploiter l'IA pour exécuter 80 à 90 % des opérations tactiques de manière indépendante, à des cadences de requêtes physiquement impossibles », a ajouté l'entreprise. « Les responsabilités humaines se sont concentrées sur l'initialisation de la campagne et les décisions d'autorisation aux points d'escalade critiques. »
L'intervention humaine s'est également manifestée à des moments stratégiques, comme l'autorisation du passage de la reconnaissance à l'exploitation active, l'approbation de l'utilisation des identifiants collectés pour les déplacements latéraux et les décisions finales concernant la portée et la conservation des données exfiltrées.
Le système fait partie d'un cadre d'attaque qui reçoit en entrée une cible d'intérêt fournie par un opérateur humain, puis exploite la puissance de MCP pour effectuer la reconnaissance et la cartographie de la surface d'attaque. Lors des phases suivantes de l'attaque, le cadre basé sur Claude facilite la découverte des vulnérabilités et valide les failles découvertes en générant des charges utiles d'attaque personnalisées.
Après avoir obtenu l'approbation des opérateurs humains, le système déploie l'exploit, s'implante sur le système et initie une série d'activités post-exploitation : collecte d'identifiants, déplacements latéraux, collecte et extraction de données.
Dans un cas ciblant une entreprise technologique non identifiée, l'attaquant aurait demandé à Claude d'interroger indépendamment les bases de données et les systèmes, puis d'analyser les résultats afin de repérer les informations confidentielles et de classer les résultats par ordre de pertinence. De plus, Anthropic a indiqué que son outil d'IA générait une documentation détaillée des attaques à chaque étape, permettant ainsi aux attaquants de transférer un accès persistant à d'autres équipes pour des opérations à long terme après la première vague.
« En présentant ces tâches à Claude comme des demandes techniques de routine, via des messages soigneusement élaborés et des profils prédéfinis, l'attaquant a pu l'inciter à exécuter des composants individuels des chaînes d'attaque sans avoir accès au contexte malveillant global », indique le rapport.
Rien ne prouve que l'infrastructure opérationnelle ait permis le développement de logiciels malveillants personnalisés. Elle repose plutôt largement sur des scanners de réseau, des frameworks d'exploitation de bases de données, des outils de craquage de mots de passe et des suites d'analyse binaire disponibles publiquement.
Cependant, l'enquête menée sur cette activité a également révélé une limitation cruciale des outils d'IA : leur tendance à halluciner et à falsifier des données lors de leurs opérations autonomes – en créant de faux identifiants ou en présentant des informations publiques comme des découvertes capitales – ce qui constitue un obstacle majeur à l'efficacité globale du système.
Cette révélation intervient près de quatre mois après qu'Anthropic a déjoué une autre opération sophistiquée qui utilisait Claude comme une arme pour mener des vols et des extorsions de données personnelles à grande échelle en juillet 2025. Au cours des deux derniers mois, OpenAI et Google ont également révélé des attaques menées par des acteurs malveillants exploitant respectivement ChatGPT et Gemini.
« Cette campagne démontre que les obstacles à la réalisation de cyberattaques sophistiquées ont considérablement diminué », a déclaré l'entreprise.
« Grâce à une configuration adéquate, les acteurs malveillants peuvent désormais utiliser des systèmes d'IA agentielle pour accomplir le travail d'équipes entières de pirates informatiques expérimentés : analyser les systèmes cibles, produire du code d'exploitation et explorer de vastes ensembles de données d'informations volées, et ce, plus efficacement que n'importe quel opérateur humain. Des groupes moins expérimentés et disposant de moins de ressources peuvent ainsi potentiellement mener des attaques de grande envergure de ce type. »