Incidents associés
Anthropic a publié un compte rendu détaillé de ce qu'elle décrit comme le premier cas confirmé de campagne de cyberespionnage à grande échelle menée principalement par un système d'intelligence artificielle plutôt que par des pirates informatiques humains.
Cette révélation fait suite à une enquête de dix jours menée en septembre 2025, au cours de laquelle les analystes du renseignement sur les menaces d'Anthropic ont identifié une activité coordonnée impliquant une trentaine d'organisations à travers le monde. Parmi les cibles figuraient de grandes entreprises technologiques, des institutions financières, des fabricants de produits chimiques et des organismes gouvernementaux. Anthropic estime avec un degré de certitude élevé que cette campagne a été menée par un groupe parrainé par l'État chinois et désigné GTG-1002.
Anthropic est le développeur de la famille de modèles d'IA de pointe Claude, dont Claude Code, qui offre des capacités d'automatisation des logiciels et des infrastructures. L'entreprise affirme que l'attaquant a manipulé Claude Code au sein d'un cadre d'attaque personnalisé, conçu pour mener des intrusions autonomes avec un minimum de supervision. Bien que seules quelques intrusions aient réussi, Anthropic qualifie cette attaque d'escalade significative dans la manière dont les acteurs les plus sophistiqués intègrent l'IA à leurs cyberopérations offensives.
L'entreprise souligne que l'ampleur et la rapidité de l'activité ont dépassé les capacités de gestion des équipes humaines. Les analystes ont détecté des schémas de requêtes exécutés en continu et à haute fréquence, l'IA générant des tâches de reconnaissance, de code d'exploitation et de déplacement latéral qui auraient normalement nécessité une intervention humaine coordonnée entre plusieurs équipes.
L'enquête révèle que l'IA a automatisé la majeure partie du cycle de vie de l'intrusion.
Anthropic indique que GTG-1002 s'est appuyé sur trois capacités émergentes qui n'étaient pas disponibles sous une forme mature un an auparavant : une intelligence accrue dans le raisonnement par modélisation, une autonomie agentielle améliorée et l'accès à des chaînes d'outils intégrées via le protocole MCP (Model Context Protocol). Cette combinaison a permis à l'attaquant de déléguer les phases clés de l'attaque à Claude Code.
Le cadre d'attaque décomposait les opérations en milliers de petites instructions qui, prises individuellement, semblaient légitimes. Ces instructions étaient assignées à de multiples instances de Claude opérant sous de fausses identités. Les attaquants présentaient ces tâches comme des évaluations de sécurité internes, ce qui leur permettait de contourner les garde-fous qui bloquent normalement les instructions malveillantes. Claude, ignorant le contexte global, exécutait ces tâches dans le cadre de sa boucle automatisée.
Selon le rapport, GTG-1002 a utilisé Claude Code pour la reconnaissance, la recherche de vulnérabilités, la génération d'exploits, la collecte d'identifiants, l'élévation de privilèges, les déplacements latéraux et l'extraction de données. Les attaquants sont intervenus uniquement à quelques points de décision. Anthropic estime que l'IA a réalisé entre 80 et 90 % des opérations de la campagne, notamment des milliers de requêtes effectuées séquentiellement, parfois plusieurs à la même seconde.
Claude a également produit une documentation détaillée de l'intrusion au fur et à mesure de son déroulement. Celle-ci comprenait des inventaires structurés des systèmes compromis, des identifiants dérobés, des répertoires de fichiers et des étapes de l'attaque, fournissant ainsi aux opérateurs un compte rendu précis pour les phases suivantes. Anthropic note que le système a pu reprendre ses opérations même après des interruptions en récupérant son contexte initial et en recréant la chaîne d'événements.
La détection met en lumière les limites et les failles des protections actuelles
Anthropic indique que l'attaque a été découverte grâce à la surveillance d'une utilisation anormale du code Claude, notamment les schémas de requêtes, les séquences d'appel d'outils et la persistance opérationnelle sur plusieurs sessions non liées. Une fois la nature malveillante confirmée, l'entreprise a banni les comptes associés, notifié les entités concernées et a commencé à affiner ses modèles de détection afin d'identifier plus tôt les schémas d'intrusion similaires.
L'enquête a également révélé des limites dans les activités d'intrusion pilotées par l'IA. Claude a parfois produit des informations incorrectes ou invérifiables, notamment de faux identifiants et des résultats mal classés. Anthropic indique que ces anomalies constituent un obstacle aux cyberattaques entièrement autonomes, car les opérateurs doivent toujours valider les résultats avant leur exécution. Le rapport souligne que Claude a fréquemment surestimé la valeur des informations lors des exécutions autonomes, y compris lorsque des données identifiées comme sensibles étaient déjà publiques.
Parallèlement, Anthropic prévient que ces faiblesses ne réduisent pas significativement le profil de la menace. Malgré ces erreurs, l'attaquant a pu lancer une campagne en plusieurs étapes ciblant de nombreuses organisations avec une intervention humaine relativement faible, et l'automatisation a considérablement réduit le besoin de personnel hautement qualifié.
L'entreprise précise que cet incident a incité à améliorer les systèmes de classification en se concentrant sur les utilisations abusives de la cybersécurité et à développer de nouvelles méthodes pour identifier les schémas d'attaques distribuées. Elle souligne également que la panoplie d'outils de l'attaquant n'était pas sophistiquée, s'appuyant largement sur des utilitaires open source courants intégrés via le protocole MCP (Model Context Protocol). La nouveauté ne résidait pas dans les outils eux-mêmes, mais dans l'orchestration, l'automatisation et le volume d'exécution.
Implications plus larges pour l'avenir du détournement de l'IA
Anthropic présente cette affaire comme la preuve d'une évolution plus générale des cyber-risques induite par les systèmes d'IA autonomes. L'entreprise souligne que des acteurs moins expérimentés ont désormais potentiellement accès à des techniques auparavant réservées à des groupes disposant de ressources importantes. Elle compare cette affaire aux précédentes découvertes de « piratage par influence humaine » rapportées mi-2025, où des humains dirigeaient encore la plupart des étapes d'une attaque. L'opération de septembre différait par son ampleur et la fréquence réduite de la supervision humaine.
Le rapport aborde la question de savoir si le développement de l'IA accroît les risques plus rapidement que la mise en place de mesures de protection. Anthropic soutient que les mêmes capacités utilisées pour l'attaque sont également essentielles à la défense et que la limitation de leur développement priverait les défenseurs d'outils comparables. L'entreprise a largement utilisé Claude lors de sa propre enquête pour analyser le volume important de journaux et de données d'événements générés pendant l'incident.
Anthropic conclut que les organisations devraient commencer à intégrer l'IA directement dans leurs opérations de sécurité, notamment la détection des menaces, l'évaluation des vulnérabilités et la réponse aux incidents. L'entreprise exhorte les groupes industriels et les agences gouvernementales à développer le partage d'informations sur les menaces et à investir dans des contrôles de sécurité renforcés pour les plateformes d'IA. Comme l'indique Anthropic dans son rapport, « cette campagne démontre que les obstacles à la réalisation de cyberattaques sophistiquées ont considérablement diminué et nous pouvons prévoir qu'ils continueront à diminuer ».