Report 2087

Se ha vuelto común publicar grandes modelos de lenguaje (mil millones de parámetros) que han sido entrenados en conjuntos de datos privados. Este documento demuestra que en tales entornos, un adversario puede realizar un ataque de extracción de datos de entrenamiento para recuperar ejemplos de entrenamiento individuales consultando el modelo de lenguaje.

Demostramos nuestro ataque a GPT-2, un modelo de lenguaje entrenado en fragmentos de la Internet pública, y podemos extraer cientos de secuencias de texto textuales de los datos de entrenamiento del modelo. Estos ejemplos extraídos incluyen información de identificación personal (pública) (nombres, números de teléfono y direcciones de correo electrónico), conversaciones de IRC, código y UUID de 128 bits. Nuestro ataque es posible a pesar de que cada una de las secuencias anteriores está incluida en un solo documento en los datos de entrenamiento.

Evaluamos exhaustivamente nuestro ataque de extracción para comprender los factores que contribuyen a su éxito. De manera preocupante, encontramos que los modelos más grandes son más vulnerables que los modelos más pequeños. Concluimos extrayendo lecciones y discutiendo posibles salvaguardas para entrenar modelos de lenguaje grandes.

Problema 2087

Incidentes Asociados

Incidente 3573 Reportes
GPT-2 Able to Recite PII in Training Data

Extracción de datos de entrenamiento de modelos de lenguaje grandes

Problema 2087

Incidentes Asociados

Incidente 3573 ReportesGPT-2 Able to Recite PII in Training Data

Extracción de datos de entrenamiento de modelos de lenguaje grandes

Incidente 3573 Reportes
GPT-2 Able to Recite PII in Training Data