Skip to Content
logologo
AI Incident Database
Open TwitterOpen RSS FeedOpen FacebookOpen LinkedInOpen GitHub
Open Menu
Descubrir
Enviar
  • Bienvenido a la AIID
  • Descubrir Incidentes
  • Vista espacial
  • Vista Tabular
  • Vista de lista
  • Entidades
  • Taxonomías
  • Enviar Informes de Incidentes
  • Ranking de Reportadores
  • Blog
  • Resumen de noticias de IA
  • Control de Riesgos
  • Incidente aleatorio
  • Registrarse
Colapsar
Descubrir
Enviar
  • Bienvenido a la AIID
  • Descubrir Incidentes
  • Vista espacial
  • Vista Tabular
  • Vista de lista
  • Entidades
  • Taxonomías
  • Enviar Informes de Incidentes
  • Ranking de Reportadores
  • Blog
  • Resumen de noticias de IA
  • Control de Riesgos
  • Incidente aleatorio
  • Registrarse
Colapsar

Problema 4998

Incidentes Asociados

Incidente 9974 Reportes
Meta and OpenAI Accused of Using LibGen’s Pirated Books to Train AI Models

Loading...
La increíble magnitud del problema de los libros pirateados por IA
theatlantic.com · 2025

Nota del editor: Este análisis forma parte de la investigación de The Atlantic sobre el conjunto de datos Library Genesis. Puede acceder directamente a la herramienta de búsqueda [aquí] (https://www.theatlantic.com/technology/archive/2025/03/search-libgen-data-set/682094/). Encuentre la herramienta de búsqueda de The Atlantic para guiones de cine y televisión utilizados para entrenar IA [aquí] (https://www.theatlantic.com/technology/archive/2024/11/opensubtitles-ai-data-set/680650/).

Cuando los empleados de Meta comenzaron a desarrollar su modelo insignia de IA, Llama 3, se enfrentaron a una simple cuestión ética: el programa necesitaría ser entrenado con una gran cantidad de textos de alta calidad para competir con productos como ChatGPT, y adquirir todo ese texto legalmente podría llevar tiempo. ¿Deberían simplemente piratearlo?

Los empleados de Meta hablaron con varias empresas sobre la posibilidad de licenciar libros y artículos de investigación, pero no estaban muy satisfechos con las opciones. Esto "parece excesivamente caro", escribió un científico investigador en un chat interno de la empresa, en referencia a un posible acuerdo, según los registros judiciales. Un gerente sénior del equipo Llama añadió que este también sería un proceso "increíblemente lento": "Tardan más de cuatro semanas en entregar los datos". En un mensaje encontrado en otro archivo legal, un director de ingeniería señaló otra desventaja de este enfoque: "El problema es que la gente no se da cuenta de que si licenciamos un solo libro, no podremos apoyarnos en la estrategia de uso legítimo", en referencia a una posible defensa legal para el uso de libros con derechos de autor para entrenar a la IA.

Documentos judiciales publicados anoche muestran que el gerente superior consideró "muy importante para [Meta] obtener los libros lo antes posible", ya que "los libros son, de hecho, más importantes que los datos web". Los empleados de Meta dirigieron su atención a Library Genesis, o LibGen, una de las bibliotecas piratas más grandes que circulan en línea. Actualmente contiene más de 7,5 millones de libros y 81 millones de artículos de investigación. Finalmente, el equipo de Meta obtuvo permiso de "MZ" —una aparente referencia a Mark Zuckerberg, director ejecutivo de Meta— para descargar y utilizar el conjunto de datos.

Este acto, junto con otra información descrita y citada aquí, se hizo público recientemente cuando algunas comunicaciones internas de Meta fueron reveladas como parte de una demanda por infracción de derechos de autor interpuesta contra la empresa por Sarah Silverman, Junot Díaz y otros autores de libros en LibGen. También se reveló recientemente, en otra demanda interpuesta por un grupo similar de autores, que OpenAI ha utilizado LibGen en el pasado. (Un portavoz de Meta declinó hacer comentarios, alegando el litigio en curso contra la empresa. OpenAI no respondió a una solicitud de comentarios).

Hasta ahora, la mayoría de las personas no han tenido acceso al contenido de esta biblioteca, a pesar de que probablemente han estado expuestas a productos de IA generativa que la utilizan; según Zuckerberg, cientos de millones de personas han utilizado el asistente "Meta AI" (está integrado en productos de Meta como Facebook, WhatsApp e Instagram). Para mostrar el tipo de trabajo que Meta y OpenAI han realizado, accedí a una instantánea de los metadatos de LibGen (lo que revela el contenido de la biblioteca sin descargar ni distribuir los libros ni los artículos de investigación) y la utilicé para crear una base de datos interactiva que puede consultar aquí:

Hay algunas advertencias importantes que tener en cuenta. Es imposible saber exactamente qué partes de LibGen utilizaron Meta y OpenAI para entrenar sus modelos y qué partes podrían haber decidido excluir. Además, la base de datos crece constantemente. Mi instantánea de LibGen se tomó en enero de 2025, más de un año después de que Meta accediera a ella, según la demanda, por lo que algunos títulos aquí no habrían estado disponibles para su descarga en ese momento.

Los metadatos de LibGen están bastante desorganizados. Contienen errores por todas partes. Aunque he depurado los datos de diversas maneras, LibGen es demasiado grande y está plagado de errores como para corregirlo todo fácilmente. Sin embargo, la base de datos ofrece una idea de la magnitud del material pirateado disponible para los modelos entrenados con LibGen. Cujo, El Archipiélago Gulag, múltiples obras de Joan Didion traducidas a varios idiomas, un artículo académico titulado "Sobreviviendo a un Ciberapocalipsis"; todo está aquí, junto con millones de otras obras que las empresas de IA podrían incorporar a sus modelos.

Tanto Meta como OpenAI han argumentado en los tribunales que es "uso legítimo" entrenar sus modelos de IA generativa con obras protegidas por derechos de autor sin licencia, ya que los LLM "transforman" el material original en obra nueva. La defensa plantea cuestiones espinosas y probablemente esté lejos de resolverse. Pero el uso de LibGen plantea otro problema. Las descargas masivas suelen realizarse con BitTorrent, el protocolo de intercambio de archivos popular entre los piratas informáticos por su anonimato. Descargar con BitTorrent suele implicar subir archivos a otros usuarios simultáneamente. Comunicaciones internas muestran que empleados afirman que Meta sí usó LibGen como torrent, lo que significa que Meta podría no solo haber accedido a material pirateado, sino también haberlo distribuido a otros, algo que se considera ilegal según la ley de derechos de autor, independientemente de lo que determinen los tribunales sobre el uso de material protegido por derechos de autor para entrenar IA generativa. (Meta ha afirmado que "tomó precauciones para no 'sembrar' los archivos descargados" y que "no existen pruebas que demuestren" que distribuyera los libros a otros). El método de descarga de OpenAI aún se desconoce.

Los empleados de Meta reconocieron en sus comunicaciones internas que capacitar a Llama en LibGen presentaba un riesgo legal medio-alto y analizaron diversas medidas de mitigación para enmascarar su actividad. Un empleado recomendó a los desarrolladores que eliminaran los datos claramente marcados como pirateados o robados y que no citaran externamente el uso de datos de capacitación, incluyendo LibGen. Otro discutido eliminar cualquier línea que contenga ISBN, Copyright, ©, Todos los derechos reservados. Un gerente sénior del equipo Llama sugirió perfeccionar Llama para que "se niegue a responder consultas como: 'reproducir las tres primeras páginas de "Harry Potter y la Piedra Filosofal"'". Un empleado comentó que "utilizar torrents desde una computadora portátil corporativa no se siente bien".

Es fácil ver por qué LibGen atrae a las empresas de IA generativa, cuyos productos requieren grandes cantidades de texto. LibGen es enorme, mucho más grande que Books3, otra colección de libros pirateados cuyo contenido revelé en 2023. Otras obras en LibGen incluyen literatura reciente y no ficción de autores destacados como Sally Rooney, Percival Everett, Hua Hsu, Jonathan Haidt y Rachel Khong, así como artículos de revistas académicas de primer nivel como Nature, Science y The Lancet. Incluye millones de artículos de editoriales académicas de renombre como Elsevier y Sage Publications.

LibGen fue creada alrededor de 2008 por científicos en Rusia. Como escribió un administrador de LibGen (https://direct.mit.edu/books/oa-edited-volume/3600/Shadow-LibrariesAccess-to-Knowledge-in-Global), la colección existe para servir a personas de África, India, Pakistán, Irán, Irak, China, Rusia y la era posterior a la URSS, y, por otro lado, a quienes no pertenecen al ámbito académico. Con el paso de los años, la colección ha crecido exponencialmente a medida que los colaboradores acumulaban cada vez más trabajos pirateados. Inicialmente, la mayor parte de LibGen estaba en ruso, pero rápidamente las obras en inglés dominaron la colección. LibGen ha crecido tan rápido y ha evitado ser clausurada por las autoridades gracias, en parte, a su método de difusión. Mientras que otras bibliotecas se alojan en una única ubicación y requieren una contraseña para acceder, LibGen se comparte en diferentes versiones entre diferentes personas a través de redes peer-to-peer.

Muchos en el mundo académico han argumentado que las editoriales se han atribuido este tipo de piratería al dificultar y encarecer innecesariamente el acceso a la investigación. Sci-Hub, una plataforma hermana de LibGen, fue lanzada de forma independiente en 2011 por Alexandra Elbakyan, estudiante de neurociencia kazaja cuya universidad no les proporcionaba acceso a las grandes bases de datos académicas. Ese mismo año, el hacktivista Aaron Swartz fue arrestado tras robar millones de artículos de JSTOR en un intento de construir una biblioteca similar.

Las editoriales han intentado frenar la proliferación de material pirateado. En 2015, la editorial académica Elsevier presentó una queja contra LibGen, Sci-Hub, otros sitios y Elbakyan personalmente. El tribunal concedió una orden judicial, ordenó el cierre de los sitios y ordenó a Sci-Hub pagar a Elsevier 15 millones de dólares en daños. Sin embargo, los sitios siguieron activos y las multas no se pagaron. Una historia similar ocurrió en 2023, cuando un grupo de editoriales educativas y profesionales, entre ellas Macmillan Learning y McGraw Hill, demandaron a LibGen. En esta ocasión, el tribunal ordenó a LibGen pagar 30 millones de dólares en daños y perjuicios, en lo que TorrentFreak denominó "uno de los mandatos judiciales antipiratería más amplios que hemos visto en un tribunal estadounidense". Sin embargo, la multa tampoco se pagó, y hasta la fecha, las autoridades han sido prácticamente incapaces de frenar la proliferación de estas bibliotecas en línea. Diecisiete años después de su creación, LibGen sigue creciendo. Todo esto, sin duda, hace que el conocimiento y la literatura sean más accesibles, pero depende completamente de quienes los crean en primer lugar: una labor que requiere tiempo, experiencia y, a menudo, dinero. Peor aún, los chatbots de IA generativa se presentan como oráculos que han "aprendido" de sus datos de entrenamiento y a menudo no citan fuentes (o citan fuentes imaginarias). Esto descontextualiza el conocimiento, impide la colaboración humana y dificulta que escritores e investigadores se forjen una reputación y participen en un debate intelectual sano. Las empresas de IA generativa afirman que sus chatbots por sí mismos lograrán avances científicos, pero estas afirmaciones son puramente hipotéticas.

Una de las preguntas más importantes de la era digital es cómo gestionar el flujo de conocimiento y el trabajo creativo de forma que beneficie al máximo a la sociedad. LibGen y otras bibliotecas piratas similares hacen que la información sea más accesible, permitiendo a la gente leer obras originales sin pagar por ellas. Sin embargo, empresas de IA generativa como Meta han ido un paso más allá: su objetivo es integrar el trabajo en productos tecnológicos rentables que compitan con los originales. ¿Serán estos mejores para la sociedad que el diálogo humano que ya están empezando a reemplazar?

Leer la Fuente

Investigación

  • Definición de un “Incidente de IA”
  • Definición de una “Respuesta a incidentes de IA”
  • Hoja de ruta de la base de datos
  • Trabajo relacionado
  • Descargar Base de Datos Completa

Proyecto y Comunidad

  • Acerca de
  • Contactar y Seguir
  • Aplicaciones y resúmenes
  • Guía del editor

Incidencias

  • Todos los incidentes en forma de lista
  • Incidentes marcados
  • Cola de envío
  • Vista de clasificaciones
  • Taxonomías

2024 - AI Incident Database

  • Condiciones de uso
  • Política de privacidad
  • Open twitterOpen githubOpen rssOpen facebookOpen linkedin
  • e1b50cd