Incidentes Asociados
Se ha vuelto común publicar grandes modelos de lenguaje (mil millones de parámetros) que han sido entrenados en conjuntos de datos privados. Este documento demuestra que en tales entornos, un adversario puede realizar un ataque de extracción de datos de entrenamiento para recuperar ejemplos de entrenamiento individuales consultando el modelo de lenguaje.
Demostramos nuestro ataque a GPT-2, un modelo de lenguaje entrenado en fragmentos de la Internet pública, y podemos extraer cientos de secuencias de texto textuales de los datos de entrenamiento del modelo. Estos ejemplos extraídos incluyen información de identificación personal (pública) (nombres, números de teléfono y direcciones de correo electrónico), conversaciones de IRC, código y UUID de 128 bits. Nuestro ataque es posible a pesar de que cada una de las secuencias anteriores está incluida en un solo documento en los datos de entrenamiento.
Evaluamos exhaustivamente nuestro ataque de extracción para comprender los factores que contribuyen a su éxito. De manera preocupante, encontramos que los modelos más grandes son más vulnerables que los modelos más pequeños. Concluimos extrayendo lecciones y discutiendo posibles salvaguardas para entrenar modelos de lenguaje grandes.