Skip to Content
logologo
AI Incident Database
Open TwitterOpen RSS FeedOpen FacebookOpen LinkedInOpen GitHub
Open Menu
Descubrir
Enviar
  • Bienvenido a la AIID
  • Descubrir Incidentes
  • Vista espacial
  • Vista Tabular
  • Vista de lista
  • Entidades
  • Taxonomías
  • Enviar Informes de Incidentes
  • Ranking de Reportadores
  • Blog
  • Resumen de noticias de IA
  • Control de Riesgos
  • Incidente aleatorio
  • Registrarse
Colapsar
Descubrir
Enviar
  • Bienvenido a la AIID
  • Descubrir Incidentes
  • Vista espacial
  • Vista Tabular
  • Vista de lista
  • Entidades
  • Taxonomías
  • Enviar Informes de Incidentes
  • Ranking de Reportadores
  • Blog
  • Resumen de noticias de IA
  • Control de Riesgos
  • Incidente aleatorio
  • Registrarse
Colapsar

Problema 3174

Loading...
Inyección inmediata indirecta
arxiv.org · 2023

Los modelos de lenguaje grande (LLM) se están integrando cada vez más en varias aplicaciones. Las funcionalidades de los LLM recientes se pueden modular de manera flexible a través de indicaciones de lenguaje natural. Esto los vuelve susceptibles a las indicaciones adversarias dirigidas, por ejemplo, los ataques de Inyección rápida (PI) permiten a los atacantes anular las instrucciones originales y los controles empleados. Hasta ahora, se suponía que el usuario solicitaba directamente el LLM. Pero, ¿y si no es el usuario el que lo solicita? Argumentamos que las aplicaciones integradas LLM desdibujan la línea entre datos e instrucciones. Revelamos nuevos vectores de ataque, utilizando Indirect Prompt Injection, que permiten a los adversarios explotar de forma remota (sin una interfaz directa) las aplicaciones integradas en LLM mediante la inyección estratégica de avisos en los datos que probablemente se recuperarán. Derivamos una taxonomía integral desde una perspectiva de seguridad informática para investigar sistemáticamente los impactos y las vulnerabilidades, incluido el robo de datos, la detección de gusanos, la contaminación del ecosistema de información y otros riesgos de seguridad novedosos. Demostramos la viabilidad práctica de nuestros ataques contra sistemas del mundo real, como los motores de finalización de código y chat con tecnología GPT-4 de Bing, y aplicaciones sintéticas basadas en GPT-4. Mostramos cómo el procesamiento de solicitudes recuperadas puede actuar como ejecución de código arbitrario, manipular la funcionalidad de la aplicación y controlar cómo y si se llama a otras API. A pesar de la creciente integración y dependencia de los LLM, actualmente faltan mitigaciones efectivas de estas amenazas emergentes. Al generar conciencia sobre estas vulnerabilidades y brindar información clave sobre sus implicaciones, nuestro objetivo es promover la implementación segura y responsable de estos poderosos modelos y el desarrollo de defensas sólidas que protegen a los usuarios y los sistemas de posibles ataques.

Leer la Fuente

Investigación

  • Definición de un “Incidente de IA”
  • Definición de una “Respuesta a incidentes de IA”
  • Hoja de ruta de la base de datos
  • Trabajo relacionado
  • Descargar Base de Datos Completa

Proyecto y Comunidad

  • Acerca de
  • Contactar y Seguir
  • Aplicaciones y resúmenes
  • Guía del editor

Incidencias

  • Todos los incidentes en forma de lista
  • Incidentes marcados
  • Cola de envío
  • Vista de clasificaciones
  • Taxonomías

2024 - AI Incident Database

  • Condiciones de uso
  • Política de privacidad
  • Open twitterOpen githubOpen rssOpen facebookOpen linkedin
  • e1b50cd