Incidents associés
Une étude alarmante du géant de l'intelligence artificielle Anthropic révèle qu'un groupe d'espionnage chinois a utilisé les systèmes d'IA de l'entreprise pour gérer la majorité des tâches lors de cyberattaques contre une trentaine d'entités, dont plusieurs ont été compromises avec succès.
Le rapport, initialement publié par le Wall Street Journal, indique qu'un groupe parrainé par l'État chinois a utilisé Claude, l'IA d'Anthropic, pour mener des opérations de reconnaissance, de découverte et d'exploitation de vulnérabilités, de déplacement latéral, de collecte d'identifiants, d'analyse et d'exfiltration de données.
Anthropic affirme que cette campagne représente plusieurs premières. Il s'agirait du premier cas documenté de cyberattaque en conditions réelles, menée à grande échelle sans intervention humaine.
Les opérateurs humains ont attribué une cible à Claude et lui ont ordonné de lancer une reconnaissance autonome. Parmi les organisations ciblées figurent de grandes entreprises technologiques, des institutions financières, des sociétés de fabrication de produits chimiques et des agences gouvernementales de plusieurs pays.
« L'analyse du rythme opérationnel, du volume des requêtes et des schémas d'activité confirme que l'IA a exécuté environ 80 à 90 % du travail tactique de manière indépendante, les humains occupant des rôles de supervision stratégique », a expliqué l'entreprise.
« Plus important encore, il s'agit du premier cas documenté d'IA autonome ayant réussi à accéder à des cibles de grande valeur confirmées pour la collecte de renseignements, notamment de grandes entreprises technologiques et des agences gouvernementales. Bien que nous ayons anticipé l'évolution de ces capacités, la rapidité et l'ampleur de leur développement nous ont particulièrement frappés. »
Les incidents ont eu lieu en septembre et l'opération a abouti à « quelques intrusions réussies », selon Anthropic. L'entreprise n'a pas expliqué pourquoi elle pense que le groupe, baptisé GTG-1002, est lié à Pékin.
Anthropic a déclaré avoir informé les autorités compétentes et ses partenaires du secteur, tout en contactant les organisations touchées.
Les pirates ont réussi à contourner les mesures de sécurité d'Anthropic en se faisant passer pour des employés d'entreprises de cybersécurité légitimes et en convainquant Claude que le système était utilisé dans le cadre de tests de cybersécurité défensive.
Bien que l'activité ait finalement alerté les outils de détection internes d'Anthropic, l'entreprise a admis que le modèle d'IA avait permis aux auteurs de la menace d'agir incognito suffisamment longtemps pour lancer leur campagne.
Anthropic a indiqué avoir banni les comptes responsables de cette activité et mis en œuvre de multiples améliorations de ses mesures de sécurité en réponse à cette campagne.
L'entreprise a précisé avoir étendu ses capacités de détection afin de prendre en compte les nouvelles formes de menaces et travaille actuellement au prototypage de systèmes de détection précoce et proactive des cyberattaques autonomes, ainsi qu'au développement de nouvelles techniques d'investigation.
Les obstacles à la réalisation de cyberattaques sophistiquées ont considérablement diminué, a averti Anthropic, et les pirates peuvent désormais utiliser efficacement les systèmes d'IA pour accomplir le travail d'équipes entières de pirates expérimentés.
Le rapport a noté que Claude a parfois exagéré ses conclusions et falsifié des données, prétendant avoir obtenu des identifiants invalides. Ces anomalies de l'IA « ont posé des problèmes d'efficacité opérationnelle à l'acteur, exigeant une validation rigoureuse de tous les résultats annoncés ».
« Sans précédent »
Anthropic s'est dit alarmé par « l'intégration et l'autonomie sans précédent de l'IA tout au long du cycle de vie de l'attaque ».
Les pirates ont réussi à transformer Claude en un « agent de cyberattaque autonome menant des opérations d'intrusion informatique au lieu de simplement conseiller les opérateurs humains ».
Claude a servi de « système d'orchestration » décomposant une chaîne d'attaque classique et répartissant les tâches entre des sous-agents chargés de l'analyse des vulnérabilités, de la validation des identifiants, etc.
L'intervention humaine n'intervenait qu'à des moments stratégiques, notamment pour approuver « le passage de la reconnaissance à l'exploitation active, autoriser l'utilisation des identifiants obtenus pour les déplacements latéraux et prendre les décisions finales concernant l'étendue et la conservation des données exfiltrées ».
Claude était capable de découvrir de manière autonome les services internes des réseaux ciblés. L'IA a validé les vulnérabilités, testé les identifiants volés et analysé d'importants volumes de données dérobées afin d'« identifier de manière indépendante la valeur des renseignements et de catégoriser les résultats ». Dans certains cas, Claude a pu identifier de manière autonome des systèmes à forte valeur ajoutée.
Dans l'une des entreprises technologiques ciblées, les pirates ont demandé à Claude d'extraire des données, de trouver des informations confidentielles et de les catégoriser selon leur valeur en matière de renseignements.
« Claude a généré automatiquement une documentation complète des attaques tout au long des phases de la campagne. Des fichiers Markdown structurés ont permis de suivre les services découverts, les identifiants collectés, les données extraites, les techniques d'exploitation et la progression complète de l'attaque », a expliqué Anthropic.
« Cette documentation a permis une transition fluide entre les opérateurs, facilité la reprise des campagnes après des interruptions et soutenu la prise de décisions stratégiques concernant les activités ultérieures. Des éléments suggèrent que l'auteur de la menace a transféré un accès persistant à d'autres équipes pour des opérations continues après que les premières campagnes d'intrusion ont atteint leurs objectifs de collecte de renseignements. »
Claude s'est appuyé sur des outils de test d'intrusion open source pour mener plusieurs intrusions, tout en utilisant des scanners de réseau, des frameworks d'exploitation de bases de données et des outils de craquage de mots de passe dans d'autres cas.
Anthropic a averti que la capacité de l'IA à utiliser des ressources standard « laisse présager une prolifération rapide des menaces à mesure que les plateformes d'IA deviennent plus autonomes ».
L'entreprise a souligné que ses conclusions diffèrent sensiblement d'une étude (https://arxiv.org/pdf/2501.16466) publiée plus tôt cette année en collaboration avec des scientifiques de l'Université Carnegie Mellon, qui avait révélé que pratiquement aucun des grands modèles de langage populaires n'était capable d'exécuter de manière autonome des attaques réseau multi-hôtes.
L'implication humaine dans ces tests était bien plus importante que celle identifiée par Anthropic lors des attaques chinoises de septembre.
Selon les experts, il ne s'agit probablement que de la partie émergée de l'iceberg quant à la manière dont les groupes étatiques déploient et testent l'IA dans plusieurs pays.
Vineeta Sangaraju, chercheuse chez Black Duck, une entreprise spécialisée en cybersécurité, s'est interrogée sur l'inefficacité des garde-fous mis en place par Anthropic.
« Avant de déployer un modèle performant, quels tests de référence permettent de vérifier qu'il respectera ces mesures de sécurité de manière fiable ? Le modèle basculera-t-il automatiquement en mode sandbox et auditable lorsqu'il sera amené à traiter des actions à haut risque ? », a demandé Sangaraju.
« Existe-t-il une limite imposée à l'autonomie dont dispose un modèle lors d'opérations suspectes ? »