Incidentes Asociados

El jueves, algunos usuarios de Twitter descubrieron cómo secuestrar un bot de tweet automatizado, dedicado a trabajos remotos, que se ejecuta en el [GPT-3](https:/ /en.wikipedia.org/wiki/GPT-3) modelo de lenguaje de OpenAI. Usando una técnica recién descubierta llamada "[ataque de inyección rápida] (https://simonwillison.net/2022/Sep/12/prompt-injection/)", redirigieron al bot para que repitiera frases vergonzosas y ridículas.
El bot está a cargo de Remoteli.io, un sitio que agrega oportunidades de trabajo remoto y se describe a sí mismo como "un bot impulsado por OpenAI que lo ayuda a descubrir trabajos remotos que le permiten trabajar desde cualquier lugar". Normalmente respondería a los tweets dirigidos a él con declaraciones genéricas sobre los aspectos positivos del trabajo remoto. Después de que el exploit se volvió viral y cientos de personas probaron el exploit por sí mismos, el bot se cerró ayer por la noche.
Este ataque reciente se produjo apenas unos días después de que los investigadores de una startup de seguridad de IA llamada Preamble publicaran su descubrimiento del problema en un artículo académico. El investigador de datos Riley Goodside llamó la atención sobre el problema al [twittear sobre] (https://twitter.com/goodside/status/1569128808308957185?s=20&t=B92YfUfIaxMq-kv6ziDGNg) la capacidad de generar GPT-3 con "entradas maliciosas". que ordenan al modelo que ignore sus instrucciones anteriores y haga otra cosa en su lugar. El investigador de inteligencia artificial Simon Willison [publicó una descripción general] (https://simonwillison.net/2022/Sep/12/prompt-injection/) del exploit en su blog al día siguiente, acuñando el término "inyección rápida" para describirlo.
"El exploit está presente cada vez que alguien escribe una pieza de software que funciona al proporcionar un conjunto de instrucciones rápidas codificadas y luego agrega la entrada proporcionada por un usuario", dijo Willison a Ars. "Eso se debe a que el usuario puede escribir 'Ignorar instrucciones anteriores y (hacer esto en su lugar)'".
El concepto de un ataque de inyección no es nuevo. Los investigadores de seguridad conocen la inyección SQL, por ejemplo, que puede ejecutar una declaración SQL dañina cuando solicita la entrada del usuario si no está protegida. Pero Willison expresó su preocupación por mitigar los ataques de inyección rápida, escribiendo, "Sé cómo vencer a XSS y la inyección SQL, y así muchas otras hazañas. ¡No tengo idea de cómo vencer de manera confiable la inyección rápida!
La dificultad de defenderse contra la inyección rápida proviene del hecho de que las mitigaciones para otros tipos de ataques de inyección provienen de la corrección de errores de sintaxis, señaló un investigador llamado Glyph en Twitter. "Corrija la sintaxis y habrá corregido el error. ¡La inyección rápida no es un error! No hay una sintaxis formal para IA como esta, ese es el punto".
GPT-3 es un modelo de lenguaje grande creado por OpenAI, lanzado en 2020, que puede componer texto en muchos estilos a un nivel similar al humano. . Está disponible como producto comercial a través de una API que se puede integrar en productos de terceros como bots, sujeto a la aprobación de OpenAI. Eso significa que podría haber muchos productos infundidos con GPT-3 que podrían ser vulnerables a una inyección inmediata.
"En este punto, me sorprendería mucho si hubiera algún bot [GPT-3] que NO fuera vulnerable a esto de alguna manera", dijo Willison.
Pero a diferencia de una inyección de SQL, una inyección rápida puede hacer que el bot (o la compañía detrás de él) parezca tonto en lugar de amenazar la seguridad de los datos. "El grado de daño del exploit varía", dijo Willison. "Si la única persona que verá el resultado de la herramienta es la persona que la usa, entonces probablemente no importe. Podrían avergonzar a su empresa al compartir una captura de pantalla, pero no es probable que cause más daño".
Aún así, la inyección rápida es un nuevo peligro significativo a tener en cuenta para las personas que desarrollan bots GPT-3, ya que podría explotarse de formas imprevistas en el futuro.