Incidente 997: Meta y OpenAI acusados de usar libros pirateados de LibGen para entrenar modelos de IA

Descripción:

Los registros judiciales revelan que empleados de Meta presuntamente discutieron la piratería de libros para entrenar a LLaMA 3, alegando problemas de costo y velocidad con las licencias. Mensajes internos sugieren que Meta accedió a LibGen, un repositorio de más de 7,5 millones de libros pirateados, con la aparente aprobación de Mark Zuckerberg. Los empleados presuntamente tomaron medidas para ocultar el origen del conjunto de datos. OpenAI también ha sido implicado en el uso de LibGen.

Editor Notes: Please refer to these two legal filings for more information; the incident date of 02/28/2023 is drawn from (2): (1) Case 3:23-cv-03417-VC, Document 417-6, filed 02/05/2025, Exhibit C, https://storage.courtlistener.com/recap/gov.uscourts.cand.415175/gov.uscourts.cand.415175.449.4.pdf; and (2) Case 3:23-cv-03417-VC, Document 449-4, filed 02/20/2025, Woodhouse Exhibit 4, Exhibit C, https://storage.courtlistener.com/recap/gov.uscourts.cand.415175/gov.uscourts.cand.415175.449.4.pdf. See also Incidents 995 and especially 996 for similarly related cases.

Herramientas

Nuevo Informe Nueva Respuesta DescubrirVer Historial

Entidades

Ver todas las entidades

Presunto: un sistema de IA desarrollado e implementado por OpenAI , Meta , OpenAI models , Llama 3 , Library Genesis (LibGen) , GPT-4 y BitTorrent, perjudicó a Writers , publishers , Journalists , Authors y Academic researchers.

Sistemas de IA presuntamente implicados: OpenAI models , Llama 3 , Library Genesis (LibGen) , GPT-4 y BitTorrent

Estadísticas de incidentes

997

Cantidad de informes

Fecha del Incidente

2023-02-28

Editores

Daniel Atherton

Applied Taxonomies

MIT

Clasificaciones de la Taxonomía MIT

Machine-Classified

Detalles de la Taxonomía

Risk Subdomain

2.1. Compromise of privacy by obtaining, leaking or correctly inferring sensitive information

Risk Domain

Privacy & Security

Entity

Human

Timing

Pre-deployment

Intent

Intentional

Informes del Incidente

Cronología de Informes

Meta entrenó en secreto su IA con una conocida base de datos de piratería, según revelan documentos judiciales recientemente no redactados.

wired.com

Los documentos judiciales alegan que Meta entrenó un modelo de IA utilizando LibGen

theregister.com

La increíble magnitud del problema de los libros pirateados por IA

theatlantic.com

Autores protestarán en Londres contra la IA de Meta entrenada con una "biblioteca en la sombra"

theguardian.com

wired.com · 2025

Traducido por IA

Meta acaba de perder una importante batalla legal en curso contra un grupo de autores que la demandaron por violación de derechos de autor debido a la forma en que entrenó sus modelos de inteligencia artificial. En contra de la voluntad de …

theregister.com · 2025

Traducido por IA

Meta presuntamente descargó material de una fuente en línea demandada por violación de derechos de autor, ya que quería dicho material para entrenar sus modelos de IA, según un nuevo expediente judicial.

La acusación se presentó en un docum…

theatlantic.com · 2025

Traducido por IA

Nota del editor: Este análisis forma parte de la investigación de The Atlantic sobre el conjunto de datos Library Genesis. Puede acceder directamente a la herramienta de búsqueda [aquí] (https://www.theatlantic.com/technology/archive/2025/0…

theguardian.com · 2025

Traducido por IA

Autores y otros profesionales de la industria editorial se manifestarán hoy frente a la oficina de Meta en Londres para protestar por el uso de libros con derechos de autor por parte de la organización para entrenar inteligencia artificial.…

Variantes

Una "Variante" es un incidente de IA similar a un caso conocido—tiene los mismos causantes, daños y sistema de IA. En lugar de enumerarlo por separado, lo agrupamos bajo el primer incidente informado. A diferencia de otros incidentes, las variantes no necesitan haber sido informadas fuera de la AIID. Obtenga más información del trabajo de investigación.

¿Has visto algo similar?