Skip to Content
logologo
AI Incident Database
Open TwitterOpen RSS FeedOpen FacebookOpen LinkedInOpen GitHub
Open Menu
Découvrir
Envoyer
  • Bienvenue sur AIID
  • Découvrir les incidents
  • Vue spatiale
  • Vue de tableau
  • Vue de liste
  • Entités
  • Taxonomies
  • Soumettre des rapports d'incident
  • Classement des reporters
  • Blog
  • Résumé de l’Actualité sur l’IA
  • Contrôle des risques
  • Incident au hasard
  • S'inscrire
Fermer
Découvrir
Envoyer
  • Bienvenue sur AIID
  • Découvrir les incidents
  • Vue spatiale
  • Vue de tableau
  • Vue de liste
  • Entités
  • Taxonomies
  • Soumettre des rapports d'incident
  • Classement des reporters
  • Blog
  • Résumé de l’Actualité sur l’IA
  • Contrôle des risques
  • Incident au hasard
  • S'inscrire
Fermer

Problème 3174

Loading...
Injection rapide indirecte
arxiv.org · 2023

Les grands modèles de langage (LLM) sont de plus en plus intégrés dans diverses applications. Les fonctionnalités des LLM récents peuvent être modulées de manière flexible via des invites en langage naturel. Cela les rend vulnérables aux incitations contradictoires ciblées, par exemple, les attaques par injection rapide (PI) permettent aux attaquants de passer outre les instructions d'origine et les contrôles employés. Jusqu'à présent, on supposait que l'utilisateur invitait directement le LLM. Mais que se passe-t-il si ce n'est pas l'invite de l'utilisateur ? Nous soutenons que les applications intégrées LLM brouillent la frontière entre les données et les instructions. Nous révélons de nouveaux vecteurs d'attaque, utilisant l'injection indirecte d'invites, qui permettent aux adversaires d'exploiter à distance (sans interface directe) les applications intégrées à LLM en injectant stratégiquement des invites dans les données susceptibles d'être récupérées. Nous dérivons une taxonomie complète du point de vue de la sécurité informatique pour étudier systématiquement les impacts et les vulnérabilités, y compris le vol de données, le vermifuge, la contamination de l'écosystème de l'information et d'autres nouveaux risques de sécurité. Nous démontrons la viabilité pratique de nos attaques contre les systèmes du monde réel, tels que les moteurs de chat et de complétion de code alimentés par GPT-4 de Bing, et les applications synthétiques basées sur GPT-4. Nous montrons comment le traitement des invites récupérées peut agir comme une exécution de code arbitraire, manipuler les fonctionnalités de l'application et contrôler comment et si d'autres API sont appelées. Malgré l'intégration et le recours croissants aux LLM, des mesures efficaces d'atténuation de ces menaces émergentes font actuellement défaut. En sensibilisant à ces vulnérabilités et en fournissant des informations clés sur leurs implications, nous visons à promouvoir le déploiement sûr et responsable de ces modèles puissants et le développement de défenses robustes qui protègent les utilisateurs et les systèmes contre les attaques potentielles.

Lire la source

Recherche

  • Définition d'un « incident d'IA »
  • Définir une « réponse aux incidents d'IA »
  • Feuille de route de la base de données
  • Travaux connexes
  • Télécharger la base de données complète

Projet et communauté

  • À propos de
  • Contacter et suivre
  • Applications et résumés
  • Guide de l'éditeur

Incidents

  • Tous les incidents sous forme de liste
  • Incidents signalés
  • File d'attente de soumission
  • Affichage des classifications
  • Taxonomies

2024 - AI Incident Database

  • Conditions d'utilisation
  • Politique de confidentialité
  • Open twitterOpen githubOpen rssOpen facebookOpen linkedin
  • e1b50cd