Report 5050

El año pasado, por estas fechas, los titulares de las noticias y los documentos judiciales estaban repletos de grandes proclamas de corporaciones tecnológicas de IA que utilizaban contenido pirateado para entrenar sus modelos de inteligencia artificial. Estafar a escritores, músicos y artistas para construir empresas multimillonarias equivalía a un "uso legítimo" de su material, según los influyentes y los rompedores de ideas. El uso legítimo —un concepto que hasta entonces se aplicaba principalmente a la cita de unas pocas líneas en una reseña literaria— se citó como excusa legal para el robo de propiedad intelectual más descarado y masivo de la historia.

OpenAI, creadora de ChatGPT, viajó a Londres y admitió abiertamente ante el Parlamento británico que su modelo de negocio no podía prosperar sin robar la propiedad de otros.

"Sería imposible entrenar los principales modelos de IA actuales sin utilizar materiales con derechos de autor", escribió la empresa en un testimonio presentado ante la Cámara de los Lores. Limitar los datos de entrenamiento a libros y dibujos de dominio público creados hace más de un siglo podría resultar en un experimento interesante, pero no proporcionaría sistemas de IA que satisfagan las necesidades de los ciudadanos actuales.

En los argumentos de OpenAI se pasó por alto un punto obvio: por supuesto, los modelos de IA deben entrenarse con datos de alta calidad. Los desarrolladores simplemente deben remunerar justamente a los propietarios de esos conjuntos de datos por su uso. Se podría argumentar igualmente que «sin acceso a alimentos en los supermercados, millones de personas morirían de hambre». Sí. En efecto. Pero sí debemos pagar al tendero.

Al mismo tiempo, otras empresas argumentaron que pagar al tendero suponía un obstáculo económico y logístico demasiado alto para superar.

Anthropic, desarrollador del modelo de IA de Claude, respondió a una demanda por infracción de derechos de autor hace un año argumentando que el mercado para los datos de entrenamiento simplemente no existía. Era completamente teórico, un producto de la imaginación. Ante un tribunal federal, Anthropic presentó una opinión pericial (https://storage.courtlistener.com/recap/gov.uscourts.tnmd.96652/gov.uscourts.tnmd.96652.67.19_1.pdf) del economista Steven R. Peterson. «El análisis económico», escribió Peterson, «muestra que el hipotético mercado competitivo de licencias que cubren datos para la formación de LLM de vanguardia sería impracticable».

Obtener permiso de los propietarios para usar su propiedad: Tan problemático y costoso.

El argumento de Anthropic era que, sin un mercado para los datos de formación, los titulares de derechos de autor no podían reclamar ninguna pérdida monetaria por el uso real o potencial de su obra. Y una de las pruebas para el uso legítimo reside en la cuestión del valor comercial obtenido injustamente. Desde el punto de vista de Anthropic: Sin valor, no hay daño. Sin daño, no hay falta.

Un año después, la aparición de un sólido mercado para los datos de entrenamiento de IA prácticamente ha desbaratado esos argumentos. Resulta que, después de todo, no es "impracticable".

Este cambio radical comenzó discretamente en la primavera de 2024. Incluso mientras sus abogados defendían la piratería ante jueces federales, OpenAI comenzó a firmar acuerdos con importantes medios de comunicación internacionales para el uso de su contenido protegido por derechos de autor como datos de entrenamiento. Axel Springer, el francés Le Monde y la española Prisa Media firmaron acuerdos para proporcionar al creador de ChatGPT material para entrenar sus modelos de IA. En abril, el Financial Times firmó un acuerdo que obligaba a ChatGPT a atribuir correctamente los resúmenes del FT al periódico económico de gran difusión.

Poco después, las compuertas se abrieron. Reuters y Associated Press cerraron acuerdos con OpenAI, al igual que Hearst, The Guardian, Conde Nast, Vox, TIME y The Atlantic. Microsoft cerró un acuerdo con USA Today. Perplexity obtuvo acceso al trabajo de AdWeek, Fortune, Stern, The Independent y Los Angeles Times. No contenta con simplemente alquilar su contenido, el mes pasado OpenAI se convirtió en copropietaria de Axios (https://www.axios.com/2025/01/15/open-ai-axios-local-newsrooms-funding-deal), una de las principales empresas de medios que informa sobre la industria de la inteligencia artificial.

Hoy en día, el panorama de acuerdos entre IA y medios está tan saturado de nombres conocidos que los contadores se están quedando sin espacio. Ezra Eeman, director de estrategia e innovación de la emisora holandesa NPO, publicó recientemente la visualización más actualizada de los principales actores y acuerdos conocidos:

"Siento que he actualizado esta diapositiva más que cualquier otra en mis presentaciones", comentó Eeman.

Sin embargo, incluso mientras se anunciaban estos acuerdos, aún faltaba algo: las cifras.

Dado que se trataba de acuerdos entre entidades corporativas, la cantidad real de dinero intercambiado permaneció envuelta en misterio. Claramente, existía un mercado para datos de entrenamiento de IA de alta calidad, pero... ¿cuánto pagaban realmente OpenAI y Meta?

Le correspondió a la lenta industria editorial finalmente desvelar el mercado.

En noviembre de 2024, el Gremio de Autores reveló que HarperCollins, la principal editorial propiedad de NewsCorp, había llegado a un acuerdo con Microsoft para usar algunos títulos de no ficción de HarperCollins para entrenar sus modelos de IA. El costo: 5000 dólares por título por el derecho a usar la prosa como datos de entrenamiento durante un período de tres años.

¡Por fin! ¡Una cifra!

Esto es, legalmente hablando, un asunto muy importante, por razones que explicaré más adelante.

Primero, cabe destacar que los términos del acuerdo no fueron revelados por HarperCollins ni Microsoft, sino por autores individuales cuyo permiso era necesario para usar sus títulos. El Gremio de Autores, que se ha convertido en un importante defensor de los derechos de autor y de autor en esta nueva era de la IA (y que está demandando activamente a OpenAI y Microsoft en nombre de sus miembros), actuó como agente de transparencia.

Agente es una palabra intencional. En el mundo del deporte profesional, es bien sabido que los agentes filtran los términos de los contratos recién firmados a los periodistas de ESPN. Es un elemento crucial de su trabajo porque define el mercado para el siguiente contrato, y el siguiente, y el siguiente. Si tu cliente es un quarterback de nivel medio, no puedes saber cuánto vale a menos que sepas cuánto gana Patrick Mahomes.

El Gremio de Autores es consciente de esta dinámica. Se ha asociado con una nueva startup, Created By Humans, que está creando un nuevo tipo de agencia literaria boutique especializada en derechos de formación en IA. Created By Humans está contratando autores para ofrecer sus obras, tanto individuales como en conjunto, con fines de formación. Y ahora, gracias al acuerdo con HarperCollins, tienen una idea del valor de su producto en el mercado.

(Aclaración: Mi propia obra de no ficción ha sido pirateada y utilizada ilegalmente en la base de datos Books3, extraída de internet. Me registré en Created By Humans para ofrecer legalmente mis libros para formación en IA).

Están surgiendo agencias de derechos de formación similares que licencian legalmente el trabajo de artistas, fotógrafos y creadores de vídeo. Calliope Networks ha creado una "licencia para scraping" que otorga a los creadores de YouTube mayor control sobre el uso de su contenido para el entrenamiento de IA. El verano pasado, varias empresas de licencias de imágenes formaron la Dataset Providers Alliance para proteger los derechos de autor y fortalecer el uso de imágenes con licencia legal en el entrenamiento de IA.

Para entender por qué la cifra de 5000 dólares por título de HarperCollins es tan importante, es necesario conocer el caso conocido como Spokeo y el umbral de legitimación activa ante un tribunal federal.

Básicamente, si se quiere demandar a una empresa como OpenAI por causar daño —en este caso, robar propiedad intelectual ajena—, los tribunales federales exigen que se demuestre un daño real. En un caso de 2016 conocido como Spokeo Inc. contra Robins (involucraba un informe crediticio inexacto, pero no se necesita saber mucho más), los tribunales federales establecieron un precedente según el cual los demandantes deben demostrar que "sufrieron un daño real concreto, peculiarizado y real o inminente". Dado que esto ocurrió en la América capitalista, se ha interpretado ampliamente como que el demandante debe demostrar una pérdida financiera o un perjuicio económico. Sin ello, la demanda ni siquiera se tramitará en un tribunal federal. Se le negará legitimación activa al demandante.

Eso fue lo que ocurrió en una demanda temprana por derechos de autor de IA, Raw Story Media contra OpenAI, en la que dos medios de comunicación alternativos demandaron a OpenAI por infracción. En noviembre de 2024, pocos días antes de la filtración de la cifra de HarperCollins, un juez federal desestimó la demanda de Raw Story porque los abogados de las empresas de medios alternativos que se unieron no pudieron demostrar un perjuicio económico real. Raw Story no tenía pruebas que vincularan el uso de su contenido por parte de OpenAI con la pérdida de ingresos "real o inminente".

Hoy, tan solo unos meses después, contamos con las pruebas que no estaban a disposición de los abogados de Raw Story. El contenido protegido por derechos de autor de Raw Story sí tiene valor monetario real, y su uso sin consentimiento constituye robo. ¿Por qué? Porque ahora podemos señalar un mercado floreciente para datos de entrenamiento de IA con licencia legal (véase el Anexo A anterior, cortesía de Ezra Eeman) y un precio real pagado por el uso de dichos datos.

La existencia confirmada de ese mercado tendrá un profundo impacto en los casos federales de derechos de autor en el futuro. Ya estamos viendo más fallos favorables a los demandantes propietarios de contenido.

A principios de enero, los documentos de la demanda Kadrey contra Meta, un caso clave por infracción de derechos de autor contra Meta y su modelo de IA Llama, revelaron que los miembros del equipo de IA de Meta eran conscientes de que estaban utilizando (en sus propias palabras) "material pirateado" para entrenar su modelo. "Usar material pirateado debería estar fuera de nuestro ámbito ético", escribió un ingeniero de IA a otro.

Los abogados de Meta intentaron silenciar cualquier nuevo descubrimiento de las comunicaciones internas de la empresa, pero el juez del Tribunal de Distrito de EE. UU., Vince Chhabria, calificó su moción de "absurda".

"Es evidente que la solicitud de sellado de Meta no está diseñada para proteger contra la divulgación de información comercial confidencial que la competencia podría utilizar en su beneficio", escribió (https://storage.courtlistener.com/recap/gov.uscourts.cand.415175/gov.uscourts.cand.415175.373.0.pdf). "Más bien, está diseñada para evitar publicidad negativa".

Unas semanas después, el juez en otro caso federal de infracción de derechos de autor llegó a una conclusión similar sobre Ross AI, la empresa acusada de robar propiedad intelectual de Thomson Reuters y su plataforma de investigación legal, Westlaw. "Ninguna de las posibles defensas de Ross se sostiene" contra las acusaciones de infracción de derechos de autor, escribió el juez del Tribunal de Distrito de EE. UU., Stephanos Bibas.

Esperen más decisiones como esta en las próximas semanas y meses. Y prepárense para que las grandes corporaciones tecnológicas de IA comiencen a apresurarse a llegar a acuerdos extrajudiciales. La falta de un mercado establecido para los datos de entrenamiento de IA, con evidencia de intercambio de dinero real, fue una piedra angular de su defensa.

Este doble golpe —la divulgación de los 5000 dólares de HarperCollins y los acuerdos que los desarrolladores de IA están cerrando con las empresas de medios— ha derrumbado esa piedra angular.

El material con derechos de autor tiene valor monetario real como datos de entrenamiento de IA. Quien lo roba no roba basura. Me roba el bolso.

Problema 5050

Cómo el mercado emergente de datos de entrenamiento de IA está erosionando la defensa de los derechos de autor por "uso justo" de las grandes tecnológicas