Problema 3174
Los modelos de lenguaje grande (LLM) se están integrando cada vez más en varias aplicaciones. Las funcionalidades de los LLM recientes se pueden modular de manera flexible a través de indicaciones de lenguaje natural. Esto los vuelve susceptibles a las indicaciones adversarias dirigidas, por ejemplo, los ataques de Inyección rápida (PI) permiten a los atacantes anular las instrucciones originales y los controles empleados. Hasta ahora, se suponía que el usuario solicitaba directamente el LLM. Pero, ¿y si no es el usuario el que lo solicita? Argumentamos que las aplicaciones integradas LLM desdibujan la línea entre datos e instrucciones. Revelamos nuevos vectores de ataque, utilizando Indirect Prompt Injection, que permiten a los adversarios explotar de forma remota (sin una interfaz directa) las aplicaciones integradas en LLM mediante la inyección estratégica de avisos en los datos que probablemente se recuperarán. Derivamos una taxonomía integral desde una perspectiva de seguridad informática para investigar sistemáticamente los impactos y las vulnerabilidades, incluido el robo de datos, la detección de gusanos, la contaminación del ecosistema de información y otros riesgos de seguridad novedosos. Demostramos la viabilidad práctica de nuestros ataques contra sistemas del mundo real, como los motores de finalización de código y chat con tecnología GPT-4 de Bing, y aplicaciones sintéticas basadas en GPT-4. Mostramos cómo el procesamiento de solicitudes recuperadas puede actuar como ejecución de código arbitrario, manipular la funcionalidad de la aplicación y controlar cómo y si se llama a otras API. A pesar de la creciente integración y dependencia de los LLM, actualmente faltan mitigaciones efectivas de estas amenazas emergentes. Al generar conciencia sobre estas vulnerabilidades y brindar información clave sobre sus implicaciones, nuestro objetivo es promover la implementación segura y responsable de estos poderosos modelos y el desarrollo de defensas sólidas que protegen a los usuarios y los sistemas de posibles ataques.