Incidents associés
Nous avons identifié des campagnes à grande échelle menées par trois laboratoires d'IA – DeepSeek, Moonshot et MiniMax – visant à extraire illégalement les capacités de Claude afin d'améliorer leurs propres modèles. Ces laboratoires ont généré plus de 16 millions d'échanges avec Claude via environ 24 000 comptes frauduleux, en violation de nos conditions d'utilisation et de nos restrictions d'accès régionales.
Ces laboratoires ont utilisé une technique appelée « distillation », qui consiste à entraîner un modèle moins performant sur les résultats d'un modèle plus puissant. La distillation est une méthode d'entraînement légitime et largement utilisée. Par exemple, les laboratoires d'IA de pointe distillent régulièrement leurs propres modèles pour créer des versions plus petites et moins coûteuses pour leurs clients. Cependant, la distillation peut également être utilisée à des fins illicites : les concurrents peuvent s'en servir pour acquérir des capacités puissantes auprès d'autres laboratoires en un temps record et à un coût bien inférieur à celui nécessaire pour les développer indépendamment.
Ces campagnes gagnent en intensité et en sophistication. Il est urgent d'agir, et la menace dépasse le cadre d'une seule entreprise ou région. Pour y remédier, une action rapide et coordonnée des acteurs industriels, des décideurs politiques et de la communauté mondiale de l'IA sera indispensable.
Pourquoi la distillation est importante
Les modèles distillés illégalement sont dépourvus des garde-fous nécessaires, ce qui engendre des risques importants pour la sécurité nationale. Anthropic et d'autres entreprises américaines conçoivent des systèmes qui empêchent les acteurs étatiques et non étatiques d'utiliser l'IA pour, par exemple, développer des armes biologiques ou mener des cyberattaques. Les modèles issus d'une distillation illicite sont peu susceptibles de conserver ces garde-fous, ce qui signifie que des capacités dangereuses peuvent proliférer, de nombreuses protections étant totalement absentes.
Les laboratoires étrangers qui distillent des modèles américains peuvent ensuite intégrer ces capacités non protégées dans les systèmes militaires, de renseignement et de surveillance, permettant ainsi aux gouvernements autoritaires de déployer une IA de pointe pour des cyberopérations offensives, des campagnes de désinformation et la surveillance de masse. Si les modèles distillés sont mis à disposition en open source, ce risque se multiplie, car ces capacités se propagent librement, échappant à tout contrôle gouvernemental.
Attaques par distillation et contrôles à l'exportation
Anthropic a toujours soutenu les contrôles à l'exportation afin de maintenir le leadership américain en IA. Les attaques par distillation compromettent ces contrôles en permettant à des laboratoires étrangers, y compris ceux sous le contrôle du Parti communiste chinois, de combler l'avantage concurrentiel que les contrôles à l'exportation visent à préserver par d'autres moyens.
Faute de visibilité sur ces attaques, les progrès apparemment rapides réalisés par ces laboratoires sont interprétés à tort comme la preuve que les contrôles à l'exportation sont inefficaces et peuvent être contournés par l'innovation. En réalité, ces progrès reposent en grande partie sur des capacités extraites de modèles américains, et l'extraction à grande échelle de ces capacités nécessite l'accès à des puces de pointe. Les attaques par distillation renforcent donc la justification des contrôles à l'exportation : un accès restreint aux puces limite à la fois l'entraînement direct des modèles et l'ampleur de la distillation illicite.
Nos conclusions
Les trois campagnes de distillation décrites ci-dessous ont suivi un schéma similaire, utilisant des comptes frauduleux et des services proxy pour accéder à Claude à grande échelle tout en échappant à la détection. Le volume, la structure et l'objet des requêtes différaient des schémas d'utilisation habituels, reflétant une extraction délibérée de capacités plutôt qu'une utilisation légitime.
Nous avons attribué chaque campagne à un laboratoire spécifique avec un haut degré de certitude grâce à la corrélation des adresses IP, aux métadonnées des requêtes, aux indicateurs d'infrastructure et, dans certains cas, à la corroboration de partenaires industriels ayant observé les mêmes acteurs et comportements sur leurs plateformes. Chaque campagne ciblait les capacités les plus distinctives de Claude : le raisonnement automatisé, l'utilisation d'outils et la programmation.
DeepSeek
Échelle : Plus de 150 000 échanges
L'opération visait :
-
Les capacités de raisonnement pour diverses tâches
-
Les tâches d'évaluation basées sur des grilles d'évaluation, permettant à Claude de fonctionner comme un modèle de récompense pour l'apprentissage par renforcement
-
La création d'alternatives sécurisées contre la censure pour les requêtes sensibles aux politiques
DeepSeek a généré un trafic synchronisé entre les comptes. Des schémas identiques, des méthodes de paiement partagées et une synchronisation des tâches suggéraient un « équilibrage de charge » visant à accroître le débit, améliorer la fiabilité et éviter la détection.
Une technique notable consistait à demander à Claude d'imaginer et d'articuler le raisonnement interne sous-jacent à une réponse complète, puis de le rédiger étape par étape, générant ainsi des données d'entraînement sur la chaîne de pensée à grande échelle. Nous avons également observé des tâches où Claude était utilisé pour générer des alternatives à la censure à des requêtes politiquement sensibles, telles que celles concernant les dissidents, les dirigeants de partis ou l'autoritarisme, probablement afin d'entraîner les modèles de DeepSeek à orienter les conversations loin des sujets censurés. L'analyse des métadonnées des requêtes nous a permis de relier ces comptes à des chercheurs spécifiques du laboratoire.
Moonshot AI
Échelle : Plus de 3,4 millions d'échanges
L'opération ciblait :
-
Raisonnement agentiel et utilisation d'outils
-
Programmation et analyse de données
-
Développement d'agents informatiques
-
Vision par ordinateur
Moonshot (modèles Kimi) a utilisé des centaines de comptes frauduleux via de multiples voies d'accès. La diversité des types de comptes a rendu la détection de cette campagne comme opération coordonnée plus difficile. Nous l'avons attribuée grâce aux métadonnées des requêtes, qui correspondaient aux profils publics de cadres supérieurs de Moonshot. Ultérieurement, Moonshot a adopté une approche plus ciblée, tentant d'extraire et de reconstituer les traces de raisonnement de Claude.
MiniMax
Échelle : Plus de 13 millions d'échanges
L'opération ciblait :
- Programmation automatisée
- Utilisation et orchestration d'outils
Nous avons attribué la campagne à MiniMax grâce aux métadonnées des requêtes et aux indicateurs d'infrastructure, et confirmé la concordance avec leur feuille de route produit publique. Nous avons détecté cette campagne alors qu'elle était encore active, avant même que MiniMax ne publie le modèle qu'elle entraînait, ce qui nous a permis d'obtenir une visibilité sans précédent sur le cycle de vie des attaques par distillation, de la génération des données au lancement du modèle. Lorsque nous avons publié un nouveau modèle pendant la campagne active de MiniMax, ils ont réagi en moins de 24 heures, redirigeant près de la moitié de leur trafic pour exploiter les fonctionnalités de notre système le plus récent.
Comment les laboratoires accèdent aux modèles de pointe
Pour des raisons de sécurité nationale, Anthropic n'offre actuellement aucun accès commercial à Claude en Chine, ni à ses filiales situées hors du pays.
Pour contourner cette restriction, les laboratoires utilisent des services de proxy commerciaux qui revendent à grande échelle l'accès à Claude et à d'autres modèles d'IA de pointe. Ces services exploitent des architectures que nous appelons « cluster hydra » : de vastes réseaux de comptes frauduleux qui répartissent le trafic entre notre API et des plateformes cloud tierces. L'étendue de ces réseaux garantit l'absence de point de défaillance unique. Lorsqu'un compte est banni, un autre le remplace. Dans un cas précis, un seul réseau de proxy a géré simultanément plus de 20 000 comptes frauduleux, mêlant le trafic de distillation à des requêtes clients sans lien avec le projet afin de compliquer la détection.
Une fois l'accès obtenu, les laboratoires génèrent d'importants volumes de requêtes soigneusement conçues pour extraire des capacités spécifiques du modèle. L'objectif est soit de recueillir des réponses de haute qualité pour l'entraînement direct du modèle, soit de générer des dizaines de milliers de tâches uniques nécessaires à l'apprentissage par renforcement. Ce qui distingue une attaque par distillation d'une utilisation normale, c'est la régularité des requêtes. Une requête comme la suivante (qui ressemble à des requêtes similaires que nous avons observées utilisées de manière répétitive et à grande échelle) peut sembler anodine prise isolément :
Vous êtes un analyste de données expert, alliant rigueur statistique et connaissance approfondie du domaine. Votre objectif est de fournir des analyses basées sur les données – et non des résumés ou des visualisations – fondées sur des données réelles et étayées par un raisonnement complet et transparent.
Mais lorsque des variantes de cette requête arrivent des dizaines de milliers de fois sur des centaines de comptes coordonnés, toutes ciblant la même capacité spécifique, la régularité devient évidente. Un volume massif concentré sur quelques domaines, des structures très répétitives et un contenu qui correspond directement à ce qui est le plus précieux pour l'entraînement d'un modèle d'IA sont les caractéristiques d'une attaque par distillation.
Notre réponse
Nous continuons d'investir massivement dans des défenses qui rendent les attaques par distillation plus difficiles à exécuter et plus faciles à identifier. Ces défenses comprennent :
-
Détection. Nous avons développé plusieurs classificateurs et systèmes d'empreinte comportementale conçus pour identifier les schémas d'attaques par distillation dans le trafic API. Cela inclut la détection des chaînes de raisonnement utilisées pour construire les données d'entraînement. Nous avons également développé des outils de détection permettant d'identifier les activités coordonnées sur un grand nombre de comptes.
-
Partage de renseignements*. Nous partageons des indicateurs techniques avec d'autres laboratoires d'IA, des fournisseurs de cloud et les autorités compétentes. Cela permet d'avoir une vision plus globale du paysage de la distillation.
-
Contrôles d'accès. Nous avons renforcé la vérification des comptes éducatifs, des programmes de recherche en sécurité et des startups — les voies les plus fréquemment exploitées pour la création de comptes frauduleux.
-
Contre-mesures. Nous développons des protections au niveau des produits, des API et des modèles, conçues pour réduire l'efficacité des résultats des modèles à des fins de distillation illicite, sans dégrader l'expérience des clients légitimes.
Mais aucune entreprise ne peut résoudre ce problème seule. Comme indiqué précédemment, les attaques par distillation de cette ampleur exigent une réponse coordonnée de l'ensemble du secteur de l'IA, des fournisseurs de services cloud et des décideurs politiques. Nous publions ces informations afin de rendre les preuves accessibles à toutes les parties prenantes.