Report 4997

Actualizado a la 1:40 p. m. ET del 25 de septiembre de 2023

Nota del editor: Este artículo forma parte de la serie de The Atlantic sobre Books3. Consulte nuestra base de datos de Books3 con función de búsqueda para encontrar autores y títulos específicos. Un análisis más profundo del contenido de la base de datos está aquí.

Uno de los problemas más preocupantes en torno a la IA generativa es simple: se está desarrollando en secreto. Para producir respuestas humanas a preguntas, sistemas como ChatGPT procesan enormes cantidades de material escrito. Sin embargo, pocas personas ajenas a empresas como Meta y OpenAI conocen la extensión completa de los textos con los que se han entrenado estos programas.

Parte del texto de entrenamiento proviene de Wikipedia y otros textos en línea, pero la IA generativa de alta calidad requiere información de mayor calidad que la que se suele encontrar en internet; es decir, requiere la que se encuentra en los libros. En una demanda presentada en California el mes pasado, los escritores Sarah Silverman, Richard Kadrey y Christopher Golden alegan que Meta violó las leyes de derechos de autor al usar sus libros para entrenar LLaMA, un gran modelo de lenguaje similar al GPT-4 de OpenAI, un algoritmo que puede generar texto imitando los patrones de palabras que encuentra en textos de muestra. Pero ni la demanda en sí ni los comentarios en torno a ella han ofrecido una mirada más profunda: Hasta ahora no sabíamos con certeza si LLaMA se entrenó con los libros de Silverman, Kadrey o Golden, ni con ningún otro.

De hecho, así fue. Recientemente obtuve y analicé un conjunto de datos utilizado por Meta para entrenar LLaMA. Su contenido justifica con creces un aspecto fundamental de las acusaciones de los autores: se están utilizando libros pirateados como información para programas informáticos que están cambiando nuestra forma de leer, aprender y comunicarnos. El futuro que promete la IA está escrito con palabras robadas.

Más de 170.000 libros, la mayoría publicados en los últimos 20 años, se encuentran en los datos de entrenamiento de LLaMA. Además de las obras de Silverman, Kadrey y Golden, se utilizan no ficción de Michael Pollan, Rebecca Solnit y Jon Krakauer, así como thrillers de James Patterson y Stephen King, y otras obras de ficción de George Saunders, Zadie Smith y Junot Díaz. Estos libros forman parte de un conjunto de datos llamado "Books3", y su uso no se ha limitado a LLaMA. Books3 también se utilizó para entrenar BloombergGPT de Bloomberg, GPT-J de EleutherAI --- un popular modelo de código abierto --- y probablemente otros programas de IA generativa ahora integrados en sitios web en internet. Un portavoz de Meta se negó a comentar sobre el uso de Books3 por parte de la compañía; un portavoz de Bloomberg confirmó por correo electrónico que Books3 se utilizó para entrenar el modelo inicial de BloombergGPT y agregó: "No incluiremos el conjunto de datos Books3 entre las fuentes de datos utilizadas para entrenar futuras versiones de BloombergGPT"; Stella Biderman, directora ejecutiva de EleutherAI, no cuestionó que la empresa utilizara Books3 en los datos de entrenamiento de GPT-J.

Como escritora y programadora informática, he sentido curiosidad por los tipos de libros que se utilizan para entrenar sistemas de IA generativa. A principios de este verano, comencé a leer debates en línea entre desarrolladores de IA académicos y aficionados en sitios como GitHub y Hugging Face. Estos me llevaron a descargar directamente "the Pile", una enorme cantidad de texto de entrenamiento creado por EleutherAI que contiene el conjunto de datos de Books3, además de material de diversas fuentes: subtítulos de vídeos de YouTube, documentos y transcripciones del Parlamento Europeo, Wikipedia en inglés, correos electrónicos enviados y recibidos por empleados de Enron Corporation antes de su colapso en 2001, y mucho más. La variedad no es del todo sorprendente. La IA generativa funciona analizando las relaciones entre las palabras en un lenguaje que suena inteligente, y dada la complejidad de estas relaciones, el tema suele ser menos importante que la cantidad de texto. Por eso, The-Eye.eu, un sitio que alojaba la Pila hasta hace poco (recibió una notificación de retirada de un grupo antipiratería danés), afirma que su propósito es "recoger y distribuir grandes conjuntos de datos".

La Pila es demasiado grande para abrirla en un editor de texto, así que creé una serie de programas para gestionarla. Primero extraje todas las líneas etiquetadas como "Books3" para aislar el conjunto de datos Books3. Aquí hay una muestra del conjunto de datos resultante:

{"text": "\n\nEste libro es una obra de ficción. Los nombres, personajes, lugares e incidentes son producto de la imaginación de los autores o se utilizan de forma ficticia. Cualquier parecido con eventos, lugares o personas reales, vivas o muertas, es pura coincidencia.\n\n | POCKET BOOKS, una división de Simon & Schuster Inc. 1230 Avenue of the Americas, Nueva York, NY 10020 www.SimonandSchuster.com\n\n---|---

Este es el comienzo de una línea que, como todas las líneas del conjunto de datos, continúa durante miles de palabras y contiene el texto completo de un libro. Pero ¿qué libro? No había etiquetas explícitas con títulos, nombres de autores ni metadatos. Solo la etiqueta "texto", que reducía los libros a la función que cumplen para el entrenamiento de la IA. Para identificar las entradas, escribí otro programa para extraer los ISBN de cada línea. Introduje estos ISBN. En otro programa que se conectaba a una base de datos de libros en línea y recuperaba información sobre el autor, el título y la publicación, que revisé en una hoja de cálculo. Este proceso reveló aproximadamente 190.000 entradas: pude identificar más de 170.000 libros; unos 20.000 no tenían ISBN o no estaban en la base de datos. (Esta cifra también incluye reediciones con diferentes ISBN, por lo que el número de libros únicos podría ser algo menor que el total). Al buscar por autor y editorial, comencé a comprender el alcance de la colección.

De los 170.000 títulos, aproximadamente un tercio son ficción y dos tercios no ficción. Provienen de editoriales grandes y pequeñas. Por ejemplo, más de 30.000 títulos son de Penguin Random House y sus sellos, 14.000 de HarperCollins, 7.000 de Macmillan, 1.800 de Oxford University Press y 600 de Verso. La colección incluye ficción y no ficción de Elena Ferrante y Rachel Cusk. Contiene al menos nueve libros de Haruki Murakami, cinco de Jennifer Egan, siete de Jonathan Franzen, nueve de Bell Hooks, cinco de David Grann y 33 de Margaret Atwood. También cabe destacar: 102 novelas pulp de L. Ron Hubbard, 90 libros del pastor creacionista de la Tierra Joven, John F. MacArthur, y múltiples obras de pseudohistoria sobre la construcción de las pirámides por extraterrestres, de Erich von Däniken. En una declaración enviada por correo electrónico, Biderman escribió, en parte: «Trabajamos estrechamente con creadores y titulares de derechos para comprender y apoyar sus perspectivas y necesidades. Actualmente estamos creando una versión de la Pila que contiene exclusivamente documentos con licencia para ese uso».

Aunque no es muy conocido fuera de la comunidad de IA, Books3 es un conjunto de datos de entrenamiento popular. Hugging Face facilitó su descarga del Eye durante más de dos años y medio; su enlace dejó de funcionar aproximadamente al mismo tiempo que Books3 fue mencionado en demandas contra OpenAI y Meta a principios de este verano. El escritor académico Peter Schoppert ha rastreado su uso en su boletín informativo de Substack. Books3 también ha sido citado en los artículos de investigación de Meta y Bloomberg que anunciaron la creación de LLaMA y BloombergGPT. En los últimos meses, el conjunto de datos estuvo oculto a simple vista, era posible descargarlo, pero era difícil encontrarlo, verlo y analizarlo. Empresas como OpenAI utilizan en secreto otros conjuntos de datos, que posiblemente contengan textos similares. Shawn Presser, el desarrollador independiente responsable de Books3, ha declarado (https://twitter.com/theshawwn/status/1320282153595396096) que creó el conjunto de datos para proporcionar a los desarrolladores independientes "datos de entrenamiento de calidad OpenAI". Su nombre hace referencia a un artículo (https://arxiv.org/abs/2005.14165) publicado por OpenAI en 2020 que mencionaba dos "corpus de libros basados en internet" llamados Books1 y Books2. Este artículo es la única fuente primaria que ofrece pistas sobre el contenido de los datos de entrenamiento de GPT-3, por lo que ha sido analizado minuciosamente por la comunidad de desarrolladores.

A partir de la información obtenida sobre el tamaño de Libros1 y Libros2, se especula que Libros1 es el resultado completo del Proyecto Gutenberg (https://gutenberg.org/), una editorial en línea con unos 70.000 libros cuyos derechos de autor o licencias han expirado y que permiten su distribución no comercial. Se desconoce el contenido de Libros2. Algunos sospechan que proviene de colecciones de libros pirateados, como Library Genesis, Z-Library y Bibliotik, que circulan a través de la red de intercambio de archivos BitTorrent. (Libros3, como anunció Presser tras su creación, es «todo Bibliotik»).

Presser me comentó por teléfono que comprende las preocupaciones de los autores. Pero el gran peligro que percibe es el monopolio de la IA generativa por parte de corporaciones adineradas, lo que les otorgaría el control total de una tecnología que está transformando nuestra cultura: creó Books3 con la esperanza de que permitiera a cualquier desarrollador crear herramientas de IA generativa. "Sería mejor si no fuera necesario tener algo como Books3", dijo. "Pero la alternativa es que, sin Books3, solo OpenAI puede hacer lo que ellos hacen". Para crear el conjunto de datos, Presser descargó una copia de Bibliotik de The-Eye.eu y actualizó un programa escrito hace más de una década por el hacktivista Aaron Swartz para convertir los libros del formato ePub (un estándar para libros electrónicos) a texto plano, un cambio necesario para que los libros se utilizaran como datos de entrenamiento. Aunque algunos de los títulos de Books3 carecen de información relevante sobre la gestión de derechos de autor, las eliminaciones fueron aparentemente una consecuencia de la conversión de archivos y la estructura de los libros electrónicos; Presser me dijo que no editó los archivos de esta manera a sabiendas. Muchos comentaristas han argumentado que entrenar a la IA con material protegido por derechos de autor constituye "uso legítimo", la doctrina legal que permite el uso de material protegido por derechos de autor bajo ciertas circunstancias, lo que permite la parodia, la cita y las obras derivadas que enriquecen la cultura. El argumento de la industria sobre el uso legítimo se basa en dos afirmaciones: que las herramientas de IA generativa no replican los libros con los que han sido entrenadas, sino que producen nuevas obras, y que estas nuevas obras no perjudican el mercado comercial de los originales. OpenAI elaboró una versión de este argumento en respuesta a una consulta de 2019 de la Oficina de Patentes y Marcas de Estados Unidos. Según Jason Schultz, director de la Clínica de Derecho y Política Tecnológica de la Universidad de Nueva York, este argumento es sólido.

Le pregunté a Schultz si el hecho de que los libros se adquirieran sin permiso podría perjudicar una reclamación de uso legítimo. "Si la fuente no está autorizada, eso puede ser un factor", dijo Schultz. Pero las intenciones y el conocimiento de las empresas de IA importan. "Si no tenían ni idea de dónde provenían los libros, creo que es un factor menos importante". Rebecca Tushnet, profesora de derecho en Harvard, coincidió con estas ideas y me comentó que la ley era "inconstante" en lo que respecta a los casos de uso legítimo relacionados con material no autorizado, y que los casos anteriores ofrecían pocos indicios de cómo un juez podría dictar sentencia en el futuro.

Esta es, en cierta medida, una historia sobre culturas enfrentadas: los mundos tecnológico y editorial han tenido desde hace mucho tiempo diferentes actitudes sobre la propiedad intelectual. Durante muchos años, he sido miembro de la comunidad del software de código abierto. El movimiento moderno de código abierto comenzó en la década de 1980, cuando un desarrollador llamado Richard Stallman se frustró con el control propietario de AT&T sobre Unix, un sistema operativo con el que había trabajado. (Stallman trabajaba en el MIT, y Unix había sido una colaboración entre AT&T y varias universidades). En respuesta, Stallman desarrolló un modelo de licencias "copyleft", bajo el cual el software podía compartirse y modificarse libremente, siempre que las modificaciones se compartieran utilizando la misma licencia. La licencia copyleft dio origen a la comunidad de código abierto actual, en la que desarrolladores aficionados ofrecen su software gratuitamente. Si su trabajo se populariza, acumulan reputación y respeto que pueden convertirse en uno de los muchos empleos bien remunerados de la industria tecnológica. Personalmente, me he beneficiado de este modelo y apoyo el uso de licencias abiertas para software. Pero también he visto cómo esta filosofía, y la actitud general de permisividad que impregna la industria, puede hacer que los desarrolladores consideren cualquier tipo de licencia innecesaria.

Esto es peligroso porque algunos tipos de trabajo creativo simplemente no pueden realizarse sin licencias más restrictivas. ¿Quién podría pasar años escribiendo una novela o investigando una obra histórica sin una garantía de control sobre la reproducción y distribución de la obra terminada? Este control forma parte de la forma en que los escritores se ganan la vida.

La postura propietaria de Meta con LLaMA sugiere que la empresa piensa de forma similar sobre su propio trabajo. Tras la filtración del modelo a principios de este año y su descarga por parte de desarrolladores independientes que lo habían adquirido, Meta utilizó una orden de retirada de la DMCA contra al menos uno de esos desarrolladores, alegando que «nadie está autorizado a exhibir, reproducir, transmitir o distribuir de otro modo las Propiedades de Meta sin su permiso expreso por escrito». Incluso después de haber publicado LLaMA en código abierto, Meta seguía exigiendo que los desarrolladores aceptaran una licencia antes de usarlo; lo mismo ocurre con una nueva versión del modelo lanzada el mes pasado. (Ni la Pila ni Libros3 se mencionan en una investigación sobre ese nuevo modelo.)

El control es Más esencial que nunca, ahora que la propiedad intelectual es digital y fluye de persona a persona como bytes a través de las ondas de radio. La piratería ha existido desde los inicios de internet y, en cierto sentido, los desarrolladores de IA están haciendo algo que se ha vuelto natural. Resulta incómodamente apropiado que la tecnología insignia actual se base en el robo masivo.

Sin embargo, hasta ahora, la piratería ha facilitado principalmente el uso personal por parte de individuos. La explotación de libros pirateados con fines de lucro, con el objetivo de reemplazar a los escritores cuyas obras fueron robadas, es una tendencia diferente y preocupante.

Este artículo afirmaba originalmente que Hugging Face alojaba el conjunto de datos Books3 además de Eye. Hugging Face no alojaba Books3; en cambio, facilitaba su descarga desde Eye.

Problema 4997

Incidentes Asociados

Incidente 9963 Reportes
Meta Allegedly Used Books3, a Dataset of 191,000 Pirated Books, to Train LLaMA AI

Revelado: Los autores cuyos libros pirateados impulsan la IA generativa

Problema 4997

Incidentes Asociados

Incidente 9963 ReportesMeta Allegedly Used Books3, a Dataset of 191,000 Pirated Books, to Train LLaMA AI

Revelado: Los autores cuyos libros pirateados impulsan la IA generativa

Incidente 9963 Reportes
Meta Allegedly Used Books3, a Dataset of 191,000 Pirated Books, to Train LLaMA AI