Report 4999

Meta acaba de perder una importante batalla legal en curso contra un grupo de autores que la demandaron por violación de derechos de autor debido a la forma en que entrenó sus modelos de inteligencia artificial. En contra de la voluntad de la compañía, un tribunal omitió información que alegaba que Meta utilizó Library Genesis (LibGen), una conocida biblioteca paralela de libros pirateados originaria de Rusia, para entrenar sus modelos de lenguaje generativo de IA.

El caso, Kadrey et al. contra Meta Platforms, fue una de las primeras demandas por derechos de autor interpuestas contra una empresa tecnológica por sus prácticas de entrenamiento de IA. Su resultado, junto con el de docenas de casos similares que se tramitan en los tribunales de Estados Unidos, determinará si las empresas tecnológicas pueden usar legalmente obras creativas para entrenar a la IA en el futuro y podría consolidar a los actores más poderosos de la IA o descarrilarlos.

Vince Chhabria, juez del Tribunal de Distrito de los Estados Unidos para el Distrito Norte de California, ordenó el miércoles que tanto Meta como los demandantes presentaran versiones completas de un lote de documentos, tras calificar de "absurda" la estrategia de Meta de censurarlos, añadiendo que, en general, "no hay nada en esos escritos que deba mantenerse bajo secreto". Chhabria dictaminó que Meta no estaba presionando para censurar los materiales para proteger sus intereses comerciales, sino para "evitar publicidad negativa". Los documentos, presentados originalmente a finales del año pasado, permanecieron sin estar disponibles públicamente sin censurar hasta la fecha.

En su orden, Chhabria hizo referencia a una cita interna de un empleado de Meta, incluida en los documentos, en la que especulaban: "Si hay cobertura mediática que sugiera que hemos utilizado un conjunto de datos que sabemos que es pirateado, como LibGen, esto podría debilitar nuestra posición negociadora con los reguladores sobre estos temas". Meta declinó hacer comentarios.

Los novelistas Richard Kadrey y Christopher Golden, junto con la comediante Sarah Silverman, presentaron la demanda colectiva contra Meta en julio de 2023, alegando que el gigante tecnológico entrenó sus modelos lingüísticos utilizando su obra protegida por derechos de autor sin permiso. Meta ha argumentado que el uso de materiales públicos para entrenar herramientas de IA se ampara en la doctrina del "uso legítimo", que establece que usar obras protegidas por derechos de autor sin permiso es legal en ciertos casos. Uno de ellos, según la empresa, es "usar texto para modelar estadísticamente el lenguaje y generar una expresión original", según escribieron sus abogados en una moción para desestimar la demanda de los autores en noviembre de 2023. En esta demanda en particular, Meta también ha argumentado que las reclamaciones de los demandantes carecen de fundamento.

Antes de que estos documentos se hicieran públicos, Meta reveló en un artículo de investigación que había entrenado su modelo de lenguaje Llama con fragmentos de Books3, un conjunto de datos de unos 196.000 libros extraídos de internet. Sin embargo, no había indicado públicamente que hubiera descargado datos directamente de LibGen.

Estos documentos, recientemente sin editar, revelan intercambios entre empleados de Meta, descubiertos durante el proceso de descubrimiento, como un ingeniero de Meta que le comentó a un colega que dudaba en acceder a los datos de LibGen porque "descargar desde un portátil corporativo [propiedad de Meta] no le parecía bien 😃". También alegan que las discusiones internas sobre el uso de los datos de LibGen se escalaron al director ejecutivo de Meta, Mark Zuckerberg (conocido como "MZ" en el memorando entregado durante la investigación) y que el equipo de inteligencia artificial de Meta recibió autorización para usar el material pirateado.

“Meta ha tratado la supuesta 'disponibilidad pública' de los conjuntos de datos fantasma como una carta de salvación, a pesar de que los registros internos de Meta muestran que todos los responsables de la toma de decisiones en Meta, incluido su director ejecutivo, Mark Zuckerberg, sabían que LibGen era 'un conjunto de datos que sabemos que está pirateado'”, alegan los demandantes en esta moción. (Presentada originalmente a finales de 2024, la moción solicita la presentación de una tercera demanda enmendada).

Además de los escritos de los demandantes, se presentó otra solicitud sin redactar en respuesta a la orden de Chhabria: la oposición de Meta a la moción para presentar una demanda enmendada. Esta argumenta que los intentos de los autores de añadir alegaciones adicionales al caso constituyen una maniobra de última hora basada en una premisa falsa e incendiaria y niega que Meta esperara para revelar información crucial durante el descubrimiento de pruebas. En cambio, Meta argumenta que reveló por primera vez a los demandantes que utilizó un conjunto de datos de LibGen en julio de 2024. (Dado que gran parte de la documentación del descubrimiento permanece confidencial, a WIRED le resulta difícil confirmar esta afirmación).

El argumento de Meta se basa en que los demandantes ya conocían el uso de LibGen y no se les debería conceder tiempo adicional para presentar una tercera demanda enmendada cuando tuvieron tiempo suficiente para hacerlo antes de que finalizara el descubrimiento en diciembre de 2024. "Los demandantes sabían de la descarga y el uso de LibGen y otras supuestas 'bibliotecas fantasma' por parte de Meta desde al menos mediados de julio de 2024", argumentan los abogados del gigante tecnológico.

En noviembre de 2023, Chhabria concedió la moción de Meta para desestimar algunas de las alegaciones de la demanda, incluyendo la de que el supuesto uso por parte de Meta del trabajo de los autores para entrenar a la IA violaba la Ley de Derechos de Autor del Milenio Digital, una ley estadounidense promulgada en 1998 para impedir la venta o duplicación de obras protegidas por derechos de autor en internet. En ese momento, el juez coincidió con la postura de Meta de que los demandantes no habían aportado pruebas suficientes para demostrar que la empresa había eliminado la denominada "información de gestión de derechos de autor", como el nombre del autor y el título de la obra.

Los documentos sin censura argumentan que se debería permitir a los demandantes modificar su demanda, alegando que la información revelada por Meta prueba que la demanda de la DMCA estaba justificada. También afirman que el proceso de descubrimiento ha revelado razones para añadir nuevas acusaciones. "Meta, a través de un representante corporativo que testificó el 20 de noviembre de 2024, ha admitido bajo juramento haber subido (también conocido como 'seeding') archivos pirateados que contienen las obras de los demandantes a sitios de 'torrents'", alega la moción. (Seeding consiste en compartir archivos torrent con otros usuarios una vez finalizada la descarga).

"Esta actividad de torrenting convirtió a Meta en distribuidora del mismo material pirateado con derechos de autor que también descargaba para su uso en sus modelos de IA disponibles comercialmente", afirma uno de los documentos recientemente sin censura, alegando que Meta, en otras palabras, no solo había utilizado material con derechos de autor sin permiso, sino que también lo había difundido.

LibGen, un archivo de libros subidos a internet que se originó en Rusia alrededor de 2008, es una de las "bibliotecas en la sombra" más grandes y controvertidas del mundo. En 2015, un juez de Nueva York ordenó una orden preliminar contra el sitio, una medida diseñada en teoría para cerrar temporalmente el archivo, pero sus administradores anónimos simplemente cambiaron su dominio. En septiembre de 2024, otro juez de Nueva York ordenó a LibGen pagar 30 millones de dólares a los titulares de los derechos de autor por infringirlos, a pesar de desconocer quién opera realmente el centro de piratería. Los problemas de Meta con el descubrimiento de información en este caso no han terminado. En la misma orden, Chhabria advirtió al gigante tecnológico contra cualquier solicitud de censura excesiva en el futuro: "Si Meta vuelve a presentar una solicitud de sellado excesivamente amplia, simplemente se revelarán todos los materiales", escribió.

Problema 4999

Incidentes Asociados

Incidente 9974 Reportes
Meta and OpenAI Accused of Using LibGen’s Pirated Books to Train AI Models

Meta entrenó en secreto su IA con una conocida base de datos de piratería, según revelan documentos judiciales recientemente no redactados.

Problema 4999

Incidentes Asociados

Incidente 9974 ReportesMeta and OpenAI Accused of Using LibGen’s Pirated Books to Train AI Models

Meta entrenó en secreto su IA con una conocida base de datos de piratería, según revelan documentos judiciales recientemente no redactados.

Incidente 9974 Reportes
Meta and OpenAI Accused of Using LibGen’s Pirated Books to Train AI Models