Skip to Content
logologo
AI Incident Database
Open TwitterOpen RSS FeedOpen FacebookOpen LinkedInOpen GitHub
Open Menu
Découvrir
Envoyer
  • Bienvenue sur AIID
  • Découvrir les incidents
  • Vue spatiale
  • Vue de tableau
  • Vue de liste
  • Entités
  • Taxonomies
  • Soumettre des rapports d'incident
  • Classement des reporters
  • Blog
  • Résumé de l’Actualité sur l’IA
  • Contrôle des risques
  • Incident au hasard
  • S'inscrire
Fermer
Découvrir
Envoyer
  • Bienvenue sur AIID
  • Découvrir les incidents
  • Vue spatiale
  • Vue de tableau
  • Vue de liste
  • Entités
  • Taxonomies
  • Soumettre des rapports d'incident
  • Classement des reporters
  • Blog
  • Résumé de l’Actualité sur l’IA
  • Contrôle des risques
  • Incident au hasard
  • S'inscrire
Fermer

Problème 5143

Incidents associés

Incident 10545 Rapports
Anthropic Report Details Claude Misuse for Influence Operations, Credential Stuffing, Recruitment Fraud, and Malware Development

Loading...
Détection et lutte contre les utilisations malveillantes de Claude : mars 2025
anthropic.com · 2025

Nous nous engageons à prévenir l'utilisation abusive de nos modèles Claude par des acteurs malveillants tout en préservant leur utilité pour les utilisateurs légitimes. Si nos mesures de sécurité préviennent efficacement de nombreux contenus malveillants, les acteurs malveillants continuent d'explorer des méthodes pour les contourner. Nous exploitons continuellement les enseignements tirés pour améliorer nos mesures de protection.

Ce rapport présente plusieurs études de cas sur la manière dont certains acteurs ont utilisé nos modèles à mauvais escient, ainsi que les mesures que nous avons prises pour détecter et contrer ces abus. En partageant ces informations, nous espérons protéger la sécurité de nos utilisateurs, prévenir les abus ou les utilisations abusives de nos services, faire respecter notre Politique d'utilisation et nos autres conditions, et partager nos enseignements au bénéfice de l'écosystème en ligne dans son ensemble. Les études de cas présentées dans ce rapport, bien que spécifiques, sont représentatives des tendances plus générales que nous observons dans nos systèmes de surveillance. Ces exemples ont été sélectionnés car ils illustrent clairement les tendances émergentes dans la manière dont les acteurs malveillants s'adaptent et exploitent les modèles d'IA de pointe. Nous espérons contribuer à une meilleure compréhension de l'évolution du paysage des menaces et aider l'écosystème de l'IA dans son ensemble à développer des mesures de protection plus robustes.

Le cas d'abus le plus novateur détecté est celui d'une opération professionnelle d'influence en tant que service, qui illustre une évolution notable dans la manière dont certains acteurs exploitent les LLM pour mener des campagnes d'influence. Ce qui est particulièrement novateur, c'est que cette opération utilisait Claude non seulement pour générer du contenu, mais aussi pour décider quand les comptes de robots sur les réseaux sociaux commenteraient, aimeraient ou repartageraient les publications d'utilisateurs authentiques. Comme décrit dans le rapport complet, Claude servait d'orchestrateur pour décider des actions que les comptes de robots sur les réseaux sociaux devaient entreprendre en fonction de personnalités à motivation politique.  Consultez le rapport complet ici.

Nous avons également observé des cas d'opérations de credential stuffing, de campagnes de fraude au recrutement et un acteur novice utilisant l'IA pour améliorer ses capacités techniques de génération de logiciels malveillants au-delà de ses compétences, entre autres activités non mentionnées dans ce blog. L'impact de ces activités varie :

  • Une opération d'influence en tant que service a utilisé Claude pour automatiser ses opérations et interagir avec des dizaines de milliers de comptes de réseaux sociaux authentiques dans plusieurs pays et langues.
  • Un acteur a utilisé Claude pour améliorer les systèmes d'identification et de traitement des noms d'utilisateur et mots de passe exposés associés aux caméras de sécurité, tout en collectant des informations sur les cibles connectées à Internet afin de les comparer. Nous n'avons pas confirmé le succès du déploiement de ces efforts.
  • Une campagne de fraude au recrutement a utilisé Claude pour enrichir le contenu d'escroqueries ciblant les demandeurs d'emploi dans les pays d'Europe de l'Est. Nous n'avons pas confirmé le succès du déploiement de ces efforts.
  • Un acteur individuel aux compétences techniques limitées a développé un logiciel malveillant qui nécessiterait généralement une expertise plus avancée. Nous n'avons pas confirmé le succès du déploiement de ces efforts.

Nos principaux enseignements sont les suivants :

  • Les utilisateurs commencent à utiliser des modèles frontaliers pour orchestrer de manière semi-autonome des systèmes d'abus complexes impliquant de nombreux robots de réseaux sociaux. Avec l'amélioration des systèmes d'IA agentique, nous prévoyons que cette tendance se poursuivra. L'IA générative peut accélérer le développement des capacités des acteurs moins sophistiqués, leur permettant potentiellement d'atteindre un niveau d'action auparavant réservé à des individus plus compétents techniquement.

Notre programme de renseignement est conçu comme un filet de sécurité, à la fois pour identifier les préjudices non détectés par notre détection standard et pour contextualiser l'utilisation malveillante de nos modèles par les acteurs malveillants. Pour enquêter sur ces cas, notre équipe a appliqué les techniques décrites dans nos articles de recherche récemment publiés, notamment Clio et  summarization hiérarchique. Ces approches nous ont permis d'analyser efficacement de grands volumes de données de conversation afin d'identifier des schémas d'utilisation abusive. Ces techniques, associées à des classificateurs (qui analysent les saisies des utilisateurs pour détecter les requêtes potentiellement dangereuses et évaluent les réponses de Claude avant ou après leur envoi), nous ont permis de détecter, d'enquêter et de bannir les comptes associés à ces cas.

Les études de cas ci-dessous mettent en évidence les types de menaces que nous avons détectées et fournissent un aperçu de la manière dont les acteurs malveillants adaptent leurs opérations pour exploiter l'IA générative.

Étude de cas : Exploitation de réseaux d'influence multi-clients sur plusieurs plateformes [rapport complet disponible ici]

Nous avons identifié et banni un acteur utilisant Claude pour une opération d'influence en tant que service à motivation financière. L'infrastructure de cet acteur a utilisé Claude pour orchestrer plus d'une centaine de comptes de bots sur les réseaux sociaux afin de promouvoir les discours politiques de ses clients. Ces discours politiques correspondent à ce que nous attendons des campagnes affiliées à un État, mais nous n'avons pas confirmé cette attribution. Plus important encore, l'opération a fait appel à Claude pour prendre des décisions tactiques d'engagement, notamment pour déterminer si les comptes de bots de médias sociaux devaient aimer, partager, commenter ou ignorer des publications spécifiques créées par d'autres comptes, en fonction d'objectifs politiques alignés sur les intérêts de leurs clients.

Profil de l'acteur : Cette opération gérait plus de 100 comptes de bots de médias sociaux sur Twitter/X et Facebook. L'opérateur a créé des profils pour chaque compte, avec des alignements politiques distincts, et a interagi avec des dizaines de milliers de comptes de médias sociaux authentiques. L'activité de l'opération suggère un service commercial au service de clients répartis dans plusieurs pays et aux objectifs politiques variés.

Tactiques et techniques : L’opération a utilisé Claude à de multiples fins :

  • Création et maintien de profils cohérents sur toutes les plateformes, avec des alignements politiques spécifiques
  • Détermination du moment où les profils doivent aimer, partager, commenter ou ignorer un contenu spécifique
  • Génération de réponses politiquement alignées dans des langues appropriées
  • Création d’invites pour les outils de génération d’images et évaluation de leurs résultats

L’acteur gérait des portefeuilles narratifs distincts pour différents clients, tous situés hors des États-Unis, avec des discours politiques variés qu’ils cherchaient à promouvoir.

Impact : L’opération a impliqué des dizaines de milliers de comptes authentiques sur les réseaux sociaux. Aucun contenu n’a atteint le statut viral, mais l’acteur a stratégiquement privilégié un engagement durable visant à promouvoir des perspectives politiques modérées plutôt que la recherche de la viralité.

Étude de cas : Extraction d’identifiants divulgués associés à des caméras de sécurité connectées à Internet.

Nous avons identifié et banni un acteur sophistiqué utilisant nos modèles pour développer des capacités permettant d’extraire les mots de passe et les noms d’utilisateur divulgués associés à des caméras de sécurité et de créer des outils permettant d’accéder de force à ces caméras. Après avoir identifié cet usage, nous avons banni le compte associé à la création de ces capacités. Bien que tel fût l'objectif de l'acteur, nous ignorons s'il a finalement réussi à déployer cette fonctionnalité.

Profil de l'acteur : Cet acteur a fait preuve de compétences de développement pointues et a maintenu une infrastructure intégrant de multiples sources de renseignements, notamment des plateformes commerciales de données de fuites de données, ainsi qu'une intégration avec des communautés privées de journaux de voleurs.

Tactiques et techniques : L'acteur a principalement utilisé Claude pour améliorer ses capacités techniques :

  • Réécriture de sa boîte à outils de scraping open source pour une maintenance simplifiée
  • Création de scripts pour scraper les URL cibles des sites web
  • Développement de systèmes pour traiter les publications des communautés Telegram de journaux de voleurs
  • Amélioration de l'interface utilisateur et des systèmes back-end afin d'optimiser les fonctionnalités de recherche

Certaines de ces techniques sont à double usage. En effet, un acteur innocent peut les utiliser à des fins légitimes. Cependant, il est important d'examiner le contexte global de l'activité, qui, dans ce cas précis, visait à permettre un accès non autorisé aux appareils.

Impact : Les conséquences potentielles des activités de ce groupe incluent la compromission d'identifiants, l'accès non autorisé aux appareils IoT (notamment les caméras de sécurité) et la pénétration du réseau. Nous n'avons pas confirmé le succès réel du déploiement de cette fonctionnalité.

Étude de cas : Campagne de fraude au recrutement : Nettoyage linguistique en temps réel pour escroquerie

Nous avons identifié et banni un acteur qui pratiquait une fraude au recrutement ciblant principalement les demandeurs d'emploi des pays d'Europe de l'Est. Cette campagne illustre comment les acteurs malveillants utilisent l'IA pour nettoyer le langage en temps réel afin de rendre leurs escroqueries plus convaincantes.

Profil de l'acteur : Cette opération a fait appel à des techniques d'ingénierie sociale moyennement sophistiquées, se faisant passer pour des responsables du recrutement d'entreprises légitimes afin d'asseoir leur crédibilité.

Tactiques et techniques : L'acteur a principalement utilisé Claude pour améliorer ses communications frauduleuses :

  • Demander des améliorations linguistiques afin d'améliorer le professionnalisme de ses communications
  • Développer des récits de recrutement plus convaincants
  • Créer des questions et des scénarios d'entretien
  • Formater les messages pour une apparence plus légitime

Il est fréquent que les opérateurs soumettent des textes mal rédigés dans une langue autre que l'anglais natif et demandent à Claude de les ajuster comme s'ils étaient rédigés par un anglophone natif, blanchissant ainsi leurs communications pour une apparence plus soignée. Ce nettoyage linguistique en temps réel améliore la légitimité perçue de leurs communications.

Impact : Bien que l’opération ait tenté de compromettre les informations personnelles des candidats à un emploi, nous n’avons confirmé aucun cas d’escroquerie réussi.

Étude de cas : Un acteur de menace novice autorisé à créer un logiciel malveillant

Nous avons identifié et banni un acteur novice utilisant Claude pour améliorer ses compétences techniques et développer des outils malveillants dépassant son niveau de compétence réel.

Profil de l’acteur : Cet acteur présentait des compétences limitées en codage formel, mais a utilisé l’IA pour étendre rapidement ses capacités, en développant des outils de doxing et d’accès à distance.

Évolution technique : Nous avons observé cet acteur évoluer de simples scripts vers des systèmes sophistiqués avec l’aide de Claude.

  • Leur boîte à outils open source est passée de fonctionnalités de base (probablement disponibles dans le commerce) à une suite avancée incluant la reconnaissance faciale et l’analyse du dark web.
  • Leur générateur de logiciels malveillants est passé d’un simple générateur de scripts batch à une interface utilisateur graphique complète permettant de générer des charges utiles malveillantes indétectables, en mettant l’accent sur le contournement des contrôles de sécurité et le maintien d’un accès permanent aux systèmes compromis.

Impact : Ce cas illustre comment l’IA peut potentiellement aplanir la courbe d’apprentissage des acteurs malveillants, permettant à des individus disposant de connaissances techniques limitées de développer des outils sophistiqués et potentiellement d’accélérer leur progression, passant d’activités de bas niveau à des activités cybercriminelles plus graves. Nous n’avons pas confirmé le déploiement de ce logiciel malveillant en situation réelle.

Prochaines étapes

Alors que nous continuons à développer et à déployer des systèmes d’IA performants, nous restons déterminés à prévenir leur utilisation abusive tout en préservant leur formidable potentiel d’applications bénéfiques. Cela nécessite une innovation continue dans nos approches de sécurité et une étroite collaboration avec la communauté de la sécurité et de la sûreté au sens large.

Dans tous les cas mentionnés ci-dessus, nous avons banni les comptes associés à l’activité infractionnelle. De plus, nous améliorons constamment nos méthodes de détection afin de détecter toute utilisation malveillante de nos modèles. Chaque cas d’abus décrit alimente notre ensemble plus large de contrôles visant à prévenir et à détecter plus rapidement toute utilisation malveillante de nos modèles.

Nous espérons que ce rapport fournira des informations utiles à notre secteur, aux gouvernements et à la communauté scientifique au sens large pour renforcer les défenses collectives du secteur de l’IA contre les abus en ligne.

Lire la source

Recherche

  • Définition d'un « incident d'IA »
  • Définir une « réponse aux incidents d'IA »
  • Feuille de route de la base de données
  • Travaux connexes
  • Télécharger la base de données complète

Projet et communauté

  • À propos de
  • Contacter et suivre
  • Applications et résumés
  • Guide de l'éditeur

Incidents

  • Tous les incidents sous forme de liste
  • Incidents signalés
  • File d'attente de soumission
  • Affichage des classifications
  • Taxonomies

2024 - AI Incident Database

  • Conditions d'utilisation
  • Politique de confidentialité
  • Open twitterOpen githubOpen rssOpen facebookOpen linkedin
  • e1b50cd