Problème 3174
Les grands modèles de langage (LLM) sont de plus en plus intégrés dans diverses applications. Les fonctionnalités des LLM récents peuvent être modulées de manière flexible via des invites en langage naturel. Cela les rend vulnérables aux incitations contradictoires ciblées, par exemple, les attaques par injection rapide (PI) permettent aux attaquants de passer outre les instructions d'origine et les contrôles employés. Jusqu'à présent, on supposait que l'utilisateur invitait directement le LLM. Mais que se passe-t-il si ce n'est pas l'invite de l'utilisateur ? Nous soutenons que les applications intégrées LLM brouillent la frontière entre les données et les instructions. Nous révélons de nouveaux vecteurs d'attaque, utilisant l'injection indirecte d'invites, qui permettent aux adversaires d'exploiter à distance (sans interface directe) les applications intégrées à LLM en injectant stratégiquement des invites dans les données susceptibles d'être récupérées. Nous dérivons une taxonomie complète du point de vue de la sécurité informatique pour étudier systématiquement les impacts et les vulnérabilités, y compris le vol de données, le vermifuge, la contamination de l'écosystème de l'information et d'autres nouveaux risques de sécurité. Nous démontrons la viabilité pratique de nos attaques contre les systèmes du monde réel, tels que les moteurs de chat et de complétion de code alimentés par GPT-4 de Bing, et les applications synthétiques basées sur GPT-4. Nous montrons comment le traitement des invites récupérées peut agir comme une exécution de code arbitraire, manipuler les fonctionnalités de l'application et contrôler comment et si d'autres API sont appelées. Malgré l'intégration et le recours croissants aux LLM, des mesures efficaces d'atténuation de ces menaces émergentes font actuellement défaut. En sensibilisant à ces vulnérabilités et en fournissant des informations clés sur leurs implications, nous visons à promouvoir le déploiement sûr et responsable de ces modèles puissants et le développement de défenses robustes qui protègent les utilisateurs et les systèmes contre les attaques potentielles.