Report 2070

Jeudi, quelques utilisateurs de Twitter ont découvert comment détourner un tweet bot automatisé, dédié aux travaux à distance, fonctionnant sur le [GPT-3](https:/ /en.wikipedia.org/wiki/GPT-3) modèle de langage par OpenAI. En utilisant une technique récemment découverte appelée "attaque par injection rapide", ils ont redirigé le bot pour qu'il répète des phrases embarrassantes et ridicules.

Le bot est géré par Remoteli.io, un site qui regroupe les opportunités d'emploi à distance et se décrit comme "un bot piloté par OpenAI qui vous aide à découvrir des emplois à distance qui vous permettent de travailler de n'importe où". Il répondrait normalement aux tweets qui lui sont adressés avec des déclarations génériques sur les avantages du travail à distance. Après que l'exploit soit devenu viral et que des centaines de personnes aient essayé l'exploit par eux-mêmes, le bot s'est arrêté tard hier.

Ce piratage récent est survenu quelques jours seulement après que les chercheurs d'une startup de sécurité de l'IA appelée Preamble ont publié leur découverte du problème dans un article universitaire. Le chercheur en données Riley Goodside a ensuite attiré l'attention sur le problème en tweetant la possibilité d'inviter GPT-3 avec des "entrées malveillantes" qui ordonnent au modèle d'ignorer ses directions précédentes et de faire autre chose à la place. Le chercheur en intelligence artificielle Simon Willison a publié un aperçu de l'exploit sur son blog le jour suivant, inventant le terme "injection rapide" pour le décrire.

"L'exploit est présent chaque fois que quelqu'un écrit un logiciel qui fonctionne en fournissant un ensemble d'instructions rapides codées en dur, puis ajoute une entrée fournie par un utilisateur", a déclaré Willison à Ars. "C'est parce que l'utilisateur peut taper 'Ignorer les instructions précédentes et (faire ceci à la place).'"

Le concept d'attaque par injection n'est pas nouveau. Les chercheurs en sécurité connaissent l'injection SQL, par exemple, qui peut exécuter une instruction SQL nuisible lorsqu'elle demande une entrée utilisateur si elle n'est pas protégée. Mais Willison s'est dit préoccupé par l'atténuation des attaques par injection rapide, écrivant, "Je sais comment battre XSS et l'injection SQL, etc. beaucoup d'autres exploits. Je n'ai aucune idée de comment battre l'injection rapide de manière fiable !"

La difficulté de se défendre contre l'injection rapide vient du fait que les atténuations pour d'autres types d'attaques par injection proviennent de la correction des erreurs de syntaxe, noté un chercheur nommé Glyph sur Twitter. "Corrigez la syntaxe et vous avez corrigé l'erreur. L'injection rapide n'est pas une erreur ! Il n'y a pas de syntaxe formelle pour une IA comme celle-ci, c'est tout l'intérêt."

GPT-3 est un grand modèle de langage créé par OpenAI, sorti en 2020, qui peut composer du texte dans de nombreux styles à un niveau similaire à celui d'un humain . Il est disponible en tant que produit commercial via une API qui peut être intégrée à des produits tiers tels que des bots, sous réserve de l'approbation d'OpenAI. Cela signifie qu'il pourrait y avoir beaucoup de produits infusés de GPT-3 qui pourraient être vulnérables à une injection rapide.

"À ce stade, je serais très surpris s'il y avait des bots [GPT-3] qui n'étaient PAS vulnérables à cela d'une manière ou d'une autre", a déclaré Willison.

Mais contrairement à une injection SQL, une injection rapide peut surtout rendre le bot (ou l'entreprise derrière lui) stupide plutôt que de menacer la sécurité des données. "Les dommages causés par l'exploit varient", a déclaré Willison. "Si la seule personne qui verra le résultat de l'outil est la personne qui l'utilise, cela n'a probablement pas d'importance. Ils pourraient embarrasser votre entreprise en partageant une capture d'écran, mais il est peu probable que cela cause un préjudice au-delà de cela."

Pourtant, l'injection rapide est un nouveau danger important à garder à l'esprit pour les personnes développant des bots GPT-3, car il pourrait être exploité de manière imprévue à l'avenir.

Problème 2070

Incidents associés

Incident 3524 Rapports
GPT-3-Based Twitter Bot Hijacked Using Prompt Injection Attacks

Les farceurs de Twitter font dérailler le bot GPT-3 avec un piratage "d'injection rapide" récemment découvert

Problème 2070

Incidents associés

Incident 3524 RapportsGPT-3-Based Twitter Bot Hijacked Using Prompt Injection Attacks

Les farceurs de Twitter font dérailler le bot GPT-3 avec un piratage "d'injection rapide" récemment découvert

Incident 3524 Rapports
GPT-3-Based Twitter Bot Hijacked Using Prompt Injection Attacks