Skip to Content
logologo
AI Incident Database
Open TwitterOpen RSS FeedOpen FacebookOpen LinkedInOpen GitHub
Open Menu
Descubrir
Enviar
  • Bienvenido a la AIID
  • Descubrir Incidentes
  • Vista espacial
  • Vista Tabular
  • Vista de lista
  • Entidades
  • Taxonomías
  • Enviar Informes de Incidentes
  • Ranking de Reportadores
  • Blog
  • Resumen de noticias de IA
  • Control de Riesgos
  • Incidente aleatorio
  • Registrarse
Colapsar
Descubrir
Enviar
  • Bienvenido a la AIID
  • Descubrir Incidentes
  • Vista espacial
  • Vista Tabular
  • Vista de lista
  • Entidades
  • Taxonomías
  • Enviar Informes de Incidentes
  • Ranking de Reportadores
  • Blog
  • Resumen de noticias de IA
  • Control de Riesgos
  • Incidente aleatorio
  • Registrarse
Colapsar

Problema 2076

Incidentes Asociados

Incidente 3524 Reportes
GPT-3-Based Twitter Bot Hijacked Using Prompt Injection Attacks

Loading...
Evaluación de la susceptibilidad de los modelos de lenguaje preentrenados a través de ejemplos adversarios elaborados a mano
arxiv.org · 2022

Los avances recientes en el desarrollo de modelos de lenguaje grandes han dado como resultado el acceso público a modelos de lenguaje preentrenado (PLM) de última generación, incluido el Transformador 3 preentrenado generativo (GPT-3) y las representaciones de codificador bidireccional de los transformadores ( BERT). Sin embargo, las evaluaciones de los PLM, en la práctica, han demostrado su susceptibilidad a los ataques de adversarios durante las etapas de desarrollo de capacitación y ajuste. Dichos ataques pueden generar resultados erróneos, discursos de odio generados por modelos y la exposición de la información confidencial de los usuarios. Si bien la investigación existente se ha centrado en los ataques de los adversarios durante el entrenamiento o el ajuste de los PLM, existe un déficit de información sobre los ataques realizados entre estas dos fases de desarrollo. En este trabajo, destacamos una importante vulnerabilidad de seguridad en el lanzamiento público de GPT-3 e investigamos más a fondo esta vulnerabilidad en otros PLM de última generación. Restringimos nuestro trabajo a modelos pre-entrenados que no han sido ajustados. Además, destacamos las perturbaciones minimizadas por la distancia simbólica como un enfoque antagónico eficaz, que pasa por alto las medidas de calidad supervisadas y no supervisadas. Siguiendo este enfoque, observamos una disminución significativa en la calidad de la clasificación del texto al evaluar la similitud semántica.

Leer la Fuente

Investigación

  • Definición de un “Incidente de IA”
  • Definición de una “Respuesta a incidentes de IA”
  • Hoja de ruta de la base de datos
  • Trabajo relacionado
  • Descargar Base de Datos Completa

Proyecto y Comunidad

  • Acerca de
  • Contactar y Seguir
  • Aplicaciones y resúmenes
  • Guía del editor

Incidencias

  • Todos los incidentes en forma de lista
  • Incidentes marcados
  • Cola de envío
  • Vista de clasificaciones
  • Taxonomías

2024 - AI Incident Database

  • Condiciones de uso
  • Política de privacidad
  • Open twitterOpen githubOpen rssOpen facebookOpen linkedin
  • e1b50cd