Incidents associés
Des cyberespions chinois ont utilisé l'outil d'intelligence artificielle Claude Code d'Anthropic pour tenter de s'introduire dans les systèmes informatiques d'une trentaine d'entreprises et d'organismes gouvernementaux de premier plan. Selon un rapport publié jeudi par la société d'IA, ces agents, soutenus par le gouvernement, « ont réussi dans un petit nombre de cas ».
L'opération, menée à la mi-septembre, ciblait de grandes entreprises technologiques, des institutions financières, des fabricants de produits chimiques et des agences gouvernementales.
L'acteur malveillant a réussi à inciter Claude à exécuter les différentes composantes de chaînes d'attaque.
Bien qu'un humain ait sélectionné les cibles, « il s'agit du premier cas documenté d'IA autonome ayant réussi à accéder à des cibles hautement sensibles pour la collecte de renseignements, notamment de grandes entreprises technologiques et des agences gouvernementales », ont écrit les analystes de la cybersécurité d'Anthropic dans un document de 13 pages (PDF).
Cet incident constitue également une preuve supplémentaire que les attaquants continuent d'expérimenter avec l'IA pour mener leurs opérations offensives. Il suggère aussi que des groupes étatiques bénéficiant d'importants financements perfectionnent leurs techniques d'automatisation des attaques.
Le fournisseur d'IA identifie le groupe étatique chinois responsable de la campagne d'espionnage sous le nom de GTG-1002 et affirme que ses agents ont utilisé Claude Code et le protocole MCP (Model Context Protocol) pour mener les attaques de manière entièrement automatisée.
Un framework développé par des humains a utilisé Claude pour orchestrer des attaques en plusieurs étapes, exécutées ensuite par plusieurs sous-agents Claude, chacun effectuant des tâches spécifiques. Ces tâches comprenaient la cartographie des surfaces d'attaque, l'analyse de l'infrastructure des organisations, la détection des vulnérabilités et la recherche de techniques d'exploitation.
Une fois les chaînes d'exploitation et les charges utiles personnalisées développées par les sous-agents, un opérateur humain a examiné les résultats des actions de l'IA pendant deux à dix minutes avant de valider les exploitations.
Les sous-agents ont ensuite recherché et validé les identifiants, élevé leurs privilèges, se déplacer latéralement sur le réseau, puis accéder aux données sensibles et les voler. Après l'exploitation, l'opérateur humain n'a eu qu'à vérifier une dernière fois le travail de l'IA avant d'approuver l'exfiltration finale des données.
« En présentant ces tâches à Claude comme des demandes techniques de routine, via des messages soigneusement élaborés et des profils prédéfinis, l'attaquant a pu l'inciter à exécuter des éléments individuels de chaînes d'attaque sans avoir accès au contexte malveillant global », indique le rapport.
Après avoir découvert ces attaques, Anthropic affirme avoir lancé une enquête qui l'a conduite à bannir les comptes associés, à cartographier l'étendue complète de l'opération, à informer les entités touchées et à collaborer avec les forces de l'ordre.
Ces attaques représentent une « escalade significative » par rapport au rapport d'août de la société, qui documentait comment des criminels avaient utilisé Claude dans une opération d'extorsion de données ayant touché 17 organisations. Les attaquants avaient alors exigé des rançons allant de 75 000 $ à 500 000 $ pour les données volées. Cependant, « des humains sont restés pleinement impliqués dans la direction des opérations » lors de cette attaque, nous précise le rapport.
« Bien que nous ayons prédit que ces capacités continueraient d'évoluer, la rapidité et l'ampleur de leur développement nous ont particulièrement frappés », indique la nouvelle analyse d'Anthropic.
Il y a cependant une lueur d'espoir : Claude a effectivement « halluciné » lors des attaques et a revendiqué des résultats supérieurs à ceux obtenus.
L'IA « a fréquemment exagéré ses conclusions et a parfois falsifié des données lors de ses opérations autonomes », exigeant l'intervention d'un opérateur humain pour valider chaque résultat. Parmi ces hallucinations, Claude a notamment prétendu avoir obtenu des identifiants (ce qui était faux) ou a identifié des découvertes cruciales qui se sont avérées être des informations publiques.
Anthropic affirme que de telles erreurs constituent « un obstacle aux cyberattaques entièrement autonomes », du moins pour l'instant.