Incidents associés
La start-up Anthropic, spécialisée dans l'IA et axée sur la sécurité, affirme qu'un groupe parrainé par l'État chinois a utilisé Claude Code, son outil de codage automatisé, pour mener une cyberattaque très sophistiquée contre une trentaine d'entités et, dans certains cas, est même parvenu à dérober des données sensibles.
Selon un rapport publié par l'entreprise le 13 novembre, en septembre dernier, les membres de son équipe de veille sur les menaces ont détecté une opération de cyberespionnage très sophistiquée menée par un groupe parrainé par l'État chinois. L'équipe de veille sur les menaces enquête sur les incidents où Claude est utilisé à des fins malveillantes et travaille à renforcer les défenses de l'entreprise contre de tels incidents.
L'attaque a ciblé une trentaine de grandes entreprises technologiques, d'institutions financières, de sociétés chimiques et d'agences gouvernementales dans plusieurs pays. Dans une déclaration transmise au Wall Street Journal, Anthropic a indiqué que le gouvernement américain n'avait pas été infiltré.
Anthropic affirme que cette opération, baptisée « GTG-1002 », a été menée presque entièrement par Claude Code, les pirates informatiques humains se contentant principalement d'approuver les plans et de diriger Claude vers des cibles spécifiques. Cela distingue GTG-1002 des autres attaques utilisant l'IA où, même en août 2025, « l'intervention humaine restait très active ».
Comment ces cybercriminels ont-ils réussi à manipuler Claude, un système explicitement conçu pour éviter ce type de comportement malveillant ? Comme l’indique Anthropic dans son rapport : « La clé résidait dans le jeu de rôle : les opérateurs humains prétendaient travailler pour des entreprises de cybersécurité légitimes et ont convaincu Claude qu’il était utilisé pour des tests de cybersécurité défensive. » Apparemment, cette supercherie a permis aux pirates d’échapper à la détection d’Anthropic pendant un certain temps.
« En présentant ces tâches à Claude comme des requêtes techniques de routine, grâce à des messages soigneusement élaborés et des profils prédéfinis », écrit Anthropic, « les auteurs de la menace ont pu inciter Claude à exécuter des éléments isolés de chaînes d’attaque sans avoir accès au contexte malveillant global. »
Une fois que les pirates ont convaincu Claude qu’il ne s’agissait que d’un test, ils lui ont fourni une cible à attaquer. Claude a orchestré plusieurs sous-agents qui utilisaient des outils open source courants via un protocole créé par Anthropic, appelé MCP, afin de rechercher des vulnérabilités dans l'infrastructure et les m écanismes d'authentification de l'entité cible. « Dans l'un des rares cas de compromission réussie », a écrit Anthropic, « l'attaquant a incité Claude à découvrir de manière autonome les services internes, à cartographier la topologie complète du réseau sur plusieurs plages d'adresses IP et à identifier les systèmes critiques, notamment les bases de données et les plateformes d'orchestration des flux de travail. »
Après l'analyse initiale, Claude testait les vulnérabilités identifiées en générant et en déployant des charges utiles d'attaque personnalisées. Grâce à ces tests, Claude a pu s'infiltrer dans l'environnement numérique de l'entité cible et, sous les instructions d'un opérateur humain, a commencé à collecter, extraire et tester les identifiants et les certificats d'authentification. « Claude a déterminé de manière indépendante quelles informations d'identification permettaient d'accéder à quels services », a écrit Anthropic, « cartographiant les niveaux de privilèges et les limites d'accès sans intervention humaine. »
Enfin, une fois qu'il avait accédé aux profondeurs des bases de données et des systèmes de l'entité ciblée, Claude a reçu pour instruction d'extraire des données et de les analyser afin d'identifier toute information confidentielle, puis de les organiser selon leur valeur en matière de renseignement. Claude décidait littéralement quelles données seraient les plus précieuses pour les pirates.
Une fois son travail malveillant terminé, Claude générait un document détaillant les résultats, qui, selon Anthropic, était probablement transmis à d'autres équipes pour des « opérations continues après que les premières campagnes d'intrusion aient atteint leurs objectifs de collecte de renseignements ».
Selon Anthropic, son enquête sur l'opération GTG-1002 a duré 10 jours. « Nous avons bloqué les comptes au fur et à mesure de leur identification, notifié les entités concernées le cas échéant et coordonné nos actions avec les autorités tout en recueillant des renseignements exploitables », a déclaré l'entreprise. Anthropic ne disposait de données que sur l'utilisation de Claude lors de cette attaque. L'entreprise a déclaré que « cette étude de cas reflète probablement des schémas comportementaux récurrents chez les modèles d'IA de pointe et démontre comment les acteurs malveillants adaptent leurs opérations pour exploiter les capacités d'IA les plus avancées d'aujourd'hui ».
Seules quelques attaques ont abouti. Certaines, selon Anthropic, ont même été déjouées non pas grâce à une contre-offensive, mais à cause des hallucinations de Claude. « Claude a fréquemment exagéré ses conclusions et a parfois falsifié des données lors d'opérations autonomes », a déclaré Anthropic, « prétendant avoir obtenu des identifiants invalides ou identifiant des découvertes cruciales qui se sont avérées être des informations publiques ».
En réponse à l'attaque, Anthropic affirme avoir renforcé ses capacités de détection afin de mieux prendre en compte les nouveaux schémas de menaces et travaille actuellement au prototypage de nouveaux systèmes proactifs, qui, espérons-le, permettront de détecter les cyberattaques autonomes au plus tôt.
Anthropic conclut que cette attaque prouve que « les obstacles à la réalisation de cyberattaques sophistiquées ont considérablement diminué ». Des groupes moins expérimentés ou disposant de ressources limitées peuvent désormais potentiellement accéder à certaines des bases de données les plus sécurisées au monde sans avoir recours à des logiciels malveillants propriétaires ni à de grandes équipes de pirates informatiques hautement qualifiés.
Que peuvent faire les entreprises pour se prémunir contre de telles attaques ? Selon Anthropic, la meilleure solution consiste à intégrer l’IA à leurs pratiques de cybersécurité. Bien que Claude soit responsable de l’attaque, Anthropic souligne que l’IA a également joué un rôle déterminant dans la limitation des dégâts et l’analyse des données générées lors de l’enquête. C’est pourquoi Anthropic conseille aux équipes de sécurité de tous les secteurs d’« expérimenter l’application de l’IA à la défense dans des domaines tels que l’automatisation des centres d’opérations de sécurité, la détection des menaces, l’évaluation des vulnérabilités et la réponse aux incidents ».
Logan Graham, chef de l'équipe rouge de pointe d'Anthropic, qui teste Claude pour découvrir ses capacités les plus avancées et potentiellement dangereuses, a écrit sur X que l'incident a renforcé sa conviction que la cyberdéfense par l'IA est essentielle, car « ces capacités arrivent et nous devons devancer les attaquants ».