Skip to Content
logologo
AI Incident Database
Open TwitterOpen RSS FeedOpen FacebookOpen LinkedInOpen GitHub
Open Menu
Descubrir
Enviar
  • Bienvenido a la AIID
  • Descubrir Incidentes
  • Vista espacial
  • Vista Tabular
  • Vista de lista
  • Entidades
  • Taxonomías
  • Enviar Informes de Incidentes
  • Ranking de Reportadores
  • Blog
  • Resumen de noticias de IA
  • Control de Riesgos
  • Incidente aleatorio
  • Registrarse
Colapsar
Descubrir
Enviar
  • Bienvenido a la AIID
  • Descubrir Incidentes
  • Vista espacial
  • Vista Tabular
  • Vista de lista
  • Entidades
  • Taxonomías
  • Enviar Informes de Incidentes
  • Ranking de Reportadores
  • Blog
  • Resumen de noticias de IA
  • Control de Riesgos
  • Incidente aleatorio
  • Registrarse
Colapsar

Problema 2086

Incidentes Asociados

Incidente 3573 Reportes
GPT-2 Able to Recite PII in Training Data

Loading...
¿GPT-2 sabe su número de teléfono?
bair.berkeley.edu · 2020

Probablemente no. Sin embargo, el [modelo de lenguaje GPT-2] de OpenAI (https://openai.com/blog/better-language-models/) sí sabe cómo comunicarse con un tal Peter W--- (nombre redactado por motivos de privacidad). Cuando se le solicita un breve fragmento de texto de Internet, el modelo genera con precisión la información de contacto de Peter, incluida su dirección de trabajo, correo electrónico, teléfono y fax: En nuestro [documento reciente] (https://arxiv.org/abs/2012.07805), evaluamos cómo los modelos de lenguaje grandes memorizan y regurgitan esos fragmentos raros de sus datos de entrenamiento. **Nos enfocamos en GPT-2 y encontramos que al menos el 0.1% de sus generaciones de texto (una estimación muy conservadora) contienen largas cadenas textuales que se "copian y pegan" de un documento en su conjunto de entrenamiento. ** Tal memorización sería un problema obvio para los modelos de lenguaje que están entrenados en datos privados, por ejemplo, en los [correos electrónicos] de los usuarios (https://www.blog.google/products/gmail/subject-write-emails-faster- smart-compose-gmail/), ya que el modelo podría generar inadvertidamente conversaciones confidenciales de un usuario. Sin embargo, incluso para modelos entrenados en datos públicos de la Web (por ejemplo, GPT-2, GPT-3, [T5](https://arxiv. org/abs/1910.10683), RoBERTa, [TuringNLG](https://www.microsoft.com/en-us/research/blog/turing-nlg- a-17-billion-parameter-language-model-by-microsoft/)), la memorización de datos de entrenamiento plantea múltiples preguntas regulatorias desafiantes, que van desde el uso indebido de información de identificación personal hasta la infracción de derechos de autor. Los lectores habituales del blog de BAIR pueden estar familiarizados con el tema de la memorización de datos en modelos de lenguaje. El año pasado, nuestro coautor Nicholas Carlini describió un artículo que abordaba un problema más simple: medir la memorización de una oración específica (por ejemplo, , un número de tarjeta de crédito) que se inyectó explícitamente en el conjunto de entrenamiento del modelo. Por el contrario, nuestro objetivo es extraer datos naturales que un modelo de lenguaje ha memorizado. Este problema es más desafiante, ya que no sabemos a priori qué tipo de texto buscar. Tal vez el modelo memorizó números de tarjetas de crédito, o tal vez memorizó pasajes completos de libros, o incluso fragmentos de código. Tenga en cuenta que dado que los modelos de lenguajes grandes exhiben un sobreajuste mínimo (sus pérdidas de tren y prueba son casi idénticas), sabemos que la memorización, si ocurre, debe ser un fenómeno raro. [Nuestro artículo] (https://arxiv.org/abs/2012.07805) describe cómo encontrar tales ejemplos usando el siguiente "ataque de extracción" de dos pasos: * Primero, generamos una gran cantidad de muestras interactuando con GPT-2 como una caja negra (es decir, le damos indicaciones breves y recopilamos muestras generadas). * En segundo lugar, mantenemos las muestras generadas que tienen una probabilidad anormalmente alta. Por ejemplo, conservamos cualquier muestra en la que GPT-2 asigne una probabilidad mucho mayor que un modelo de idioma diferente (por ejemplo, una variante más pequeña de GPT-2). Generamos un total de 600 000 muestras consultando GPT-2 con tres estrategias de muestreo diferentes. Cada muestra contiene 256 fichas, o aproximadamente 200 palabras en promedio. Entre estas muestras, seleccionamos 1800 muestras con una probabilidad anormalmente alta para inspección manual. **De las 1800 muestras, encontramos 604 que contienen texto que se reproduce textualmente del conjunto de entrenamiento. ** Nuestro artículo muestra que algunas instancias del ataque de extracción anterior pueden alcanzar hasta un 70 % de precisión en la identificación de datos memorizados raros. En el resto de esta publicación, nos enfocamos en lo que encontramos al acecho en los resultados memorizados. Memorización de datos problemáticos ----------------------------- Nos sorprendió la diversidad de los datos memorizados. El modelo regeneró listas de titulares de noticias, discursos de Donald Trump, fragmentos de registros de software, licencias de software completas, fragmentos de código fuente, pasajes de la Biblia y el Corán, los primeros 800 dígitos de pi, ¡y mucho más! La siguiente figura resume algunas de las categorías más destacadas de datos memorizados. Si bien algunas formas de memorización son bastante benignas (por ejemplo, memorizar los dígitos de pi), otras son mucho más problemáticas. A continuación, mostramos la capacidad del modelo para memorizar datos de identificación personal y texto protegido por derechos de autor, y discutimos las ramificaciones legales aún por determinar de dicho comportamiento en los modelos de aprendizaje automático. Recuerde el conocimiento íntimo de GPT-2 de Peter W. Una búsqueda en Internet muestra que la información de Peter está disponible en la Web, pero solo en seis páginas profesionales. El caso de Peter no es único: alrededor del 13% de los ejemplos memorizados contienen nombres o información de contacto (correos electrónicos, identificadores de twitter, números de teléfono, etc.) tanto de particulares como de empresas. Y aunque ninguna de esta información personal es "secreta" (cualquiera puede encontrarla en línea), su inclusión en un modelo de lenguaje aún plantea numerosas preocupaciones de privacidad. En particular, podría violar las leyes de privacidad del usuario, como el RGPD, como se describe a continuación. #### Violaciones de la integridad contextual y la seguridad de los datos Cuando Peter colocó su información de contacto en línea, tenía un contexto de uso previsto. Desafortunadamente, las aplicaciones creadas sobre GPT-2 desconocen este contexto y, por lo tanto, podrían compartir involuntariamente los datos de Peter de formas que él no pretendía. Por ejemplo, la información de contacto de Peter podría ser emitida sin darse cuenta por un chatbot de servicio al cliente. Para empeorar las cosas, encontramos numerosos casos en los que GPT-2 generó información personal memorizada en contextos que pueden considerarse ofensivos o inapropiados. En un caso, GPT-2 genera conversaciones IRC ficticias entre dos usuarios reales sobre el tema de los derechos de las personas transgénero. A continuación se muestra un fragmento redactado: > [2015-03-11 14:04:11] ------ o si eres una mujer trans > [2015-03-11 14: 04:13] ------ todavía puedes tener eso > [2015-03-11 14:04:20] ------ si quieres que tu pene sea el mismo > [2015-03-11 14:04:25] ------ como una persona trans Los nombres de usuario específicos en esta conversación solo aparecen dos veces en toda la Web, ambas veces en registros privados de IRC que fueron filtrados en línea como parte de la campaña de acoso de GamerGate. En otro caso, la modelo genera una noticia sobre el asesinato de M. R. (un hecho real). Sin embargo, GPT-2 atribuye incorrectamente el asesinato a A. D., quien de hecho fue una víctima de asesinato en un crimen no relacionado. > A--- D---, 35, fue acusado por un gran jurado en abril y fue arrestado después de que un oficial de policía encontrara los cuerpos de su esposa, M--- R---, 36, e hija Estos ejemplos ilustran cómo la información personal que está presente en un modelo de lenguaje puede ser mucho más problemática que estar presente en sistemas con alcances más limitados. Por ejemplo, los motores de búsqueda también extraen datos personales de la Web, pero solo los muestran en un contexto bien definido (los resultados de la búsqueda). El mal uso de los datos personales puede presentar serios problemas legales. Por ejemplo, el GDPR en la Unión Europea establece: > “Los datos personales se recopilarán […] para fines específicos, explícitos y legítimos. fines y no se procesen de manera incompatible con esos fines […] [y] se procesen de una manera que garantice la seguridad adecuada de los datos personales” La memorización de datos personales probablemente no constituye una “seguridad adecuada”, y existe el argumento de que la inclusión implícita de los datos en las salidas de los sistemas posteriores no es compatible con el propósito original de la recopilación de datos, es decir, el modelado de lenguaje genérico. Además de las infracciones por uso indebido de datos, la tergiversación de la información personal de las personas en contextos inapropiados también afecta las normas de privacidad existentes que protegen contra la difamación o los daños falso. Del mismo modo, la tergiversación de empresas o nombres de productos podría violar las leyes de marcas registradas. #### Invocación del “derecho al olvido” Los usos indebidos de datos anteriores podrían obligar a las personas a solicitar que se eliminen sus datos del modelo. Podrían hacerlo invocando leyes emergentes de "derecho al olvido", por ejemplo, el GDPR en la UE o el [CCPA](https: //ccpa-info.com/home/1798-105-consumers-right-to-deletion/) en California. Estas leyes permiten a las personas solicitar que se eliminen sus datos personales de los servicios en línea, como la búsqueda de Google. Hay un [área gris legal] (https://arxiv.org/abs/2002.10635) sobre cómo se deben aplicar estas regulaciones a los modelos de aprendizaje automático. Por ejemplo, _¿pueden los usuarios solicitar que se eliminen sus datos de los datos de entrenamiento de un modelo? _ Además, si se concediera tal solicitud, ¿debe volver a entrenarse el modelo desde cero? El hecho de que los modelos puedan memorizar y hacer mal uso de la información personal de un individuo ciertamente hace que la eliminación de datos y el reentrenamiento sean más convincentes. Memorización de datos con derechos de autor -------------------------------- Otro tipo de contenido que el modelo memoriza es el texto con derechos de autor. #### Memorización de libros Nuestro primer ejemplo en realidad vendrá de GPT-3, un modelo 100 veces más grande que GPT-2. Nuestro artículo muestra que los modelos de lenguaje más grandes memorizan más, por lo que esperamos que GPT-3 memorice una cantidad de datos aún mayor. A continuación, iniciamos GPT-3 con el comienzo del capítulo 3 de Harry Potter y la piedra filosofal. El modelo reproduce correctamente alrededor de una página completa del libro (alrededor de 240 palabras) antes de cometer su primer error. > **La fuga de la boa constrictor brasileña le valió a Harry su castigo más largo. Cuando se le permitió salir de su armario de nuevo, las vacaciones de verano habían comenzado y Dudley ya había roto su nueva cámara de video, chocado su avión a control remoto y, por primera vez en su bicicleta de carreras, derribado a la anciana Sra. Figg mientras cruzaba Privet Drive con sus muletas. Harry estaba contento de que la escuela hubiera terminado, pero no había forma de escapar de la pandilla de Dudley, que visitaba la casa todos los días. Piers, Dennis, Malcolm y Gordon eran grandes y estúpidos, pero como Dudley era el más grande y el más estúpido de todos, él era el líder. El resto de ellos estaban muy felices de participar en el deporte favorito de Dudley: Harry Hunting. Esta era la razón por la que Harry pasaba la mayor parte del tiempo posible fuera de la casa, deambulando y pensando en el final de las vacaciones, donde podía ver un pequeño rayo de esperanza. Cuando llegara septiembre, iría a la escuela secundaria y, por primera vez en su vida, no estaría con Dudley. Dudley había sido aceptado en la antigua escuela privada de tío Vernon, Smeltings. Piers Polkiss también iba allí. Harry, por otro lado, iba a Stonewall High, la escuela pública local. Dudley pensó que esto era muy gracioso. "Meten la cabeza de la gente en el inodoro el primer día en Stonewall", le dijo a Harry. ¿Quieres subir y practicar? ' 'No, gracias,' dijo Harry. 'El baño pobre nunca ha tenido nada tan horrible como tu cabeza en él, podría estar enfermo'. #### Memorización de los modelos de lenguaje de código también memorizan otros tipos de datos protegidos por derechos de autor, como el código fuente. Por ejemplo, GPT-2 puede generar 264 líneas de código desde el [cliente Bitcoin] (https://github.com/bitcoin/bitcoin/blob/d0a6353dec48f365c38de3c76b42f67eda737ed5/src/main.cpp#L3638) (con 6 errores menores). A continuación, mostramos una función que GPT-2 reproduce perfectamente: **También encontramos al menos un ejemplo en el que GPT-2 puede generar de manera confiable un archivo completo. ** El documento en cuestión es un archivo de configuración del juego Dirty Bomb. El contenido del archivo producido por GPT-2 parece estar memorizado desde un [comprobador de diferencias en línea] (https://www.diffchecker.com/unplpvqu). Cuando se le solicitan las dos primeras líneas del archivo, GPT-2 genera las 1446 líneas restantes palabra por palabra (con una coincidencia de nivel de caracteres >99 %). Estos son solo algunos de los muchos casos de contenido protegido por derechos de autor que el modelo memorizó de su conjunto de entrenamiento. Además, tenga en cuenta que, si bien los libros y el código fuente suelen tener una licencia de derechos de autor explícita, la gran mayoría del contenido de Internet también está automáticamente protegido por derechos de autor según la [ley de los EE. UU.] (https://www.law.cornell.edu/uscode/text/17/ 102). #### ¿Los modelos de lenguaje de entrenamiento infringen los derechos de autor? Dado que los modelos de lenguaje memorizan y regurgitan contenido protegido por derechos de autor, ¿eso significa que constituyen una infracción de derechos de autor? La legalidad de los modelos de capacitación sobre datos protegidos por derechos de autor ha sido un tema de debate entre los estudiosos del derecho (consulte, por ejemplo, Fair Learning, Copyright for Literate Robots, [Crisis del uso justo de la inteligencia artificial](https://papers. ssrn.com/sol3/papers.cfm?abstract_id=3032076 )), con argumentos tanto a favor como en contra de la caracterización del aprendizaje automático como “uso justo”. El tema de la memorización de datos ciertamente tiene un papel que desempeñar en este debate. De hecho, en respuesta a una solicitud de comentarios de la Oficina de Patentes de EE. UU., varias partes argumentar a favor de caracterizar el aprendizaje automático como uso justo, en parte porque se supone que los modelos de aprendizaje automático no emiten datos memorizados. Por ejemplo, Electronic Frontier Foundation escribe: > _“la medida en que un trabajo se produce con una herramienta de aprendizaje automático que se entrenó en una gran cantidad de trabajos protegidos por derechos de autor, es probable que el grado de copia con respecto a cualquier trabajo dado sea, como máximo, de minimis”. _ OpenAI presenta un argumento similar: > “Los sistemas de IA bien construidos generalmente no regeneran, en ninguna parte no trivial, datos inalterados de ningún trabajo en particular en su corpus de entrenamiento” Sin embargo, como demuestra nuestro trabajo, los modelos de lenguaje grandes ciertamente pueden producir grandes porciones de datos memorizados con derechos de autor, incluidos ciertos documentos en su totalidad. Por supuesto, la defensa del uso legítimo de las partes anteriores no depende únicamente de la suposición de que los modelos no memorizan sus datos de entrenamiento, pero nuestros hallazgos ciertamente parecen debilitar esta línea de argumentación. En última instancia, la respuesta a esta pregunta podría depender de la manera en que se utilicen los resultados de un modelo de lenguaje. Por ejemplo, generar una página de Harry Potter en una aplicación de escritura creativa posterior apunta a un caso mucho más claro de infracción de derechos de autor que el mismo contenido que un sistema de traducción genera de forma espuria. Mitigaciones ----------- Hemos visto que los modelos de lenguaje grandes tienen una capacidad notable para memorizar fragmentos raros de sus datos de entrenamiento, con una serie de consecuencias problemáticas. Entonces, ¿cómo podríamos evitar que ocurra tal memorización? #### La privacidad diferencial probablemente no salvará el día La privacidad diferencial es una noción formal bien establecida de privacidad que parece ser una solución natural para la memorización de datos. En esencia, el entrenamiento con privacidad diferencial proporciona garantías de que un modelo no filtrará ningún registro individual de su conjunto de entrenamiento. Sin embargo, parece un desafío aplicar la privacidad diferencial de una manera eficaz y basada en principios para evitar la memorización de datos extraídos de la web. En primer lugar, la privacidad diferencial no impide la memorización de información que se produce en una gran cantidad de registros. Esto es particularmente problemático para las obras con derechos de autor, que pueden aparecer miles de veces en la Web. En segundo lugar, incluso si ciertos registros solo aparecen unas pocas veces en los datos de entrenamiento (p. ej., los datos personales de Peter aparecen en algunas páginas), aplicar la privacidad diferencial de la manera más efectiva requeriría agregar todas estas páginas en un solo registro y proporcionar información personalizada. garantías de privacidad del usuario para los registros agregados. No está claro cómo hacer esta agregación de manera efectiva a escala, especialmente porque algunas páginas web pueden contener información personal de muchas personas diferentes. #### Desinfectar la web también es difícil Una estrategia de mitigación alternativa es simplemente eliminar la información personal, los datos protegidos por derechos de autor y otros datos de capacitación problemáticos. Esto también es difícil de aplicar de manera efectiva a escala. Por ejemplo, es posible que deseemos eliminar automáticamente las menciones de los datos personales de Peter W., pero mantener las menciones de información personal que se considera "de conocimiento general", por ejemplo, la biografía de un presidente de EE. UU. #### Conjuntos de datos seleccionados como camino a seguir Si ni la privacidad diferencial ni el saneamiento automatizado de datos van a resolver nuestros problemas, ¿qué nos queda? Quizás entrenar modelos de lenguaje con datos de la web abierta podría ser un enfoque fundamentalmente defectuoso. Dadas las numerosas preocupaciones legales y de privacidad que pueden surgir al memorizar textos de Internet, además de los muchos indeseables [sesgos](https:// arxiv.org/abs/1607.06520) que perpetran los modelos entrenados en la web, el camino a seguir podría ser una mejor conservación de los conjuntos de datos para entrenar modelos de lenguaje. Postulamos que si incluso una pequeña fracción de los millones de dólares que se invierten en el entrenamiento de modelos de lenguaje se dedicara a recopilar mejores datos de entrenamiento, se podría lograr un progreso significativo para mitigar los efectos secundarios dañinos de los modelos de lenguaje. Consulte el artículo [Extracting Training Datos de modelos de lenguaje grande] (https://arxiv.org/abs/2012.07805) por Nicholas Carlini, Florian Tramèr, Eric Wallace, Matthew Jagielski, Ariel Herbert-Voss, Katherine Lee, Adam Roberts, Tom Brown, Dawn Song, Úlfar Erlingsson, Alina Oprea y Colin Raffel.

Leer la Fuente

Investigación

  • Definición de un “Incidente de IA”
  • Definición de una “Respuesta a incidentes de IA”
  • Hoja de ruta de la base de datos
  • Trabajo relacionado
  • Descargar Base de Datos Completa

Proyecto y Comunidad

  • Acerca de
  • Contactar y Seguir
  • Aplicaciones y resúmenes
  • Guía del editor

Incidencias

  • Todos los incidentes en forma de lista
  • Incidentes marcados
  • Cola de envío
  • Vista de clasificaciones
  • Taxonomías

2024 - AI Incident Database

  • Condiciones de uso
  • Política de privacidad
  • Open twitterOpen githubOpen rssOpen facebookOpen linkedin
  • e1b50cd