Skip to Content
logologo
AI Incident Database
Open TwitterOpen RSS FeedOpen FacebookOpen LinkedInOpen GitHub
Open Menu
Descubrir
Enviar
  • Bienvenido a la AIID
  • Descubrir Incidentes
  • Vista espacial
  • Vista Tabular
  • Vista de lista
  • Entidades
  • Taxonomías
  • Enviar Informes de Incidentes
  • Ranking de Reportadores
  • Blog
  • Resumen de noticias de IA
  • Control de Riesgos
  • Incidente aleatorio
  • Registrarse
Colapsar
Descubrir
Enviar
  • Bienvenido a la AIID
  • Descubrir Incidentes
  • Vista espacial
  • Vista Tabular
  • Vista de lista
  • Entidades
  • Taxonomías
  • Enviar Informes de Incidentes
  • Ranking de Reportadores
  • Blog
  • Resumen de noticias de IA
  • Control de Riesgos
  • Incidente aleatorio
  • Registrarse
Colapsar

Problema 2087

Incidentes Asociados

Incidente 3573 Reportes
GPT-2 Able to Recite PII in Training Data

Loading...
Extracción de datos de entrenamiento de modelos de lenguaje grandes
arxiv.org · 2020

Se ha vuelto común publicar grandes modelos de lenguaje (mil millones de parámetros) que han sido entrenados en conjuntos de datos privados. Este documento demuestra que en tales entornos, un adversario puede realizar un ataque de extracción de datos de entrenamiento para recuperar ejemplos de entrenamiento individuales consultando el modelo de lenguaje.

Demostramos nuestro ataque a GPT-2, un modelo de lenguaje entrenado en fragmentos de la Internet pública, y podemos extraer cientos de secuencias de texto textuales de los datos de entrenamiento del modelo. Estos ejemplos extraídos incluyen información de identificación personal (pública) (nombres, números de teléfono y direcciones de correo electrónico), conversaciones de IRC, código y UUID de 128 bits. Nuestro ataque es posible a pesar de que cada una de las secuencias anteriores está incluida en un solo documento en los datos de entrenamiento.

Evaluamos exhaustivamente nuestro ataque de extracción para comprender los factores que contribuyen a su éxito. De manera preocupante, encontramos que los modelos más grandes son más vulnerables que los modelos más pequeños. Concluimos extrayendo lecciones y discutiendo posibles salvaguardas para entrenar modelos de lenguaje grandes.

Leer la Fuente

Investigación

  • Definición de un “Incidente de IA”
  • Definición de una “Respuesta a incidentes de IA”
  • Hoja de ruta de la base de datos
  • Trabajo relacionado
  • Descargar Base de Datos Completa

Proyecto y Comunidad

  • Acerca de
  • Contactar y Seguir
  • Aplicaciones y resúmenes
  • Guía del editor

Incidencias

  • Todos los incidentes en forma de lista
  • Incidentes marcados
  • Cola de envío
  • Vista de clasificaciones
  • Taxonomías

2024 - AI Incident Database

  • Condiciones de uso
  • Política de privacidad
  • Open twitterOpen githubOpen rssOpen facebookOpen linkedin
  • e1b50cd