Report 5021

La aluvión de imágenes de IA al estilo Studio Ghibli generada la semana pasada por la última actualización de OpenAI a GPT-4o capturó rápidamente la imaginación de Internet, y según se informa atrajo a más de un millón de nuevos usuarios a la plataforma en un solo día. Cielos de ensueño, rostros expresivos y pinceladas suaves replicaron asombrosamente la estética característica del estudio, y el estilo se aplicó rápidamente a todo, desde memes populares hasta fotos familiares. El director ejecutivo de OpenAI, Sam Altman, se sumó a la tendencia, actualizando su avatar X a una imagen al estilo Studio Ghibli y tuiteando al respecto. La Casa Blanca también se involucró, publicando una imagen particularmente cruel de una mujer arrestada a principios de este mes por el Servicio de Inmigración y Control de Aduanas de Estados Unidos (ICE).

El parecido de estas imágenes con el estilo de Studio Ghibli no fue casual. Estas imágenes son una prueba contundente de que OpenAI entrenó su modelo con contenido de Studio Ghibli con derechos de autor, probablemente extraído sin permiso.

Es casi seguro que el estudio no autorizó la reproducción de su estilo distintivo. En medio de la cobertura de esta tendencia, resurgieron los comentarios del fundador del estudio, Hayao Miyazaki (https://www.independent.co.uk/arts-entertainment/films/news/hayao-miyazaki-studio-ghibli-ai-trend-b2723358.html), quien una vez dijo sobre los videos generados por IA: "Estoy completamente disgustado... Siento firmemente que esto es un insulto a la vida misma". Si bien no podemos deshacer lo que ya ha sucedido, aún podemos construir protecciones para la próxima generación de artistas y mejores herramientas que respeten la creatividad.

Si queremos un internet que valore el consentimiento, la creatividad y la equidad, necesitamos herramientas que respeten los límites establecidos por los creadores, los cuales deberían estar vinculados a su trabajo. Las propuestas actuales para gestionar el scraping de IA se centran principalmente en robots.txt, que es principalmente útil para los propietarios de sitios web y editores que controlan sus dominios. Sin embargo, robots.txt no gestiona eficazmente el contenido compartido entre plataformas ni ofrece a los creadores individuales una forma sencilla de comunicar su consentimiento al publicar en sitios de terceros o cuando otros reutilizan su trabajo. Para subsanar esta deficiencia, están surgiendo nuevas soluciones, desde la incrustación de metadatos legibles por máquina directamente en los archivos hasta nuevas herramientas y protocolos destinados a que el consentimiento sea más portátil, persistente y fácil de aplicar.

Los límites de Robots.txt

Muchos debates actuales sobre la gestión del scraping de IA se centran en la actualización de robots.txt para la era de la IA. Si bien robots.txt es una herramienta crucial debido a su simplicidad, su amplia adopción y su larga trayectoria en la guía de los rastreadores web, nunca fue diseñado para servir como una herramienta robusta de gestión de derechos. Propuesto inicialmente hace 30 años como un protocolo simple y voluntario para la interacción entre sitios web y rastreadores, permite a los propietarios de sitios web expresar cómo desean que los motores de búsqueda, investigadores y proyectos de archivo gestionen y utilicen su contenido, basándose en una señal clara y buenas costumbres.

Esto funcionó bien cuando los rastreadores indexaban contenido para búsqueda, investigación o archivo. Pero ahora hay mucho más en juego. Los sistemas de IA actuales extraen grandes cantidades de contenido de la web abierta, incluyendo sitios web como Wikipedia, medios de comunicación como The Guardian y The New York Times (que ahora está demandando a OpenAI](https://www.nytimes.com/2023/12/27/business/media/new-york-times-open-ai-microsoft-lawsuit.html)), libros de dominio público y pirateados, código de plataformas como GitHub y foros públicos como Reddit. Parte de este material es de dominio público o tiene licencia abierta, pero gran parte está protegida por derechos de autor, lo que genera constantes preocupaciones legales y éticas.

Si bien robots.txt puede ser ideal para propietarios y editores de sitios web que pueden ordenar a los rastreadores de IA que eliminen sus sitios web, no aborda los problemas que enfrentan los creadores de contenido individuales, como artistas, músicos, escritores y otros profesionales creativos que comparten contenido en múltiples plataformas o sitios web. Estos creadores necesitan una forma de comunicar fácilmente sus preferencias de consentimiento al publicar su trabajo en sitios de terceros o cuando otros lo usan.

Un debate reciente en Bluesky ilustró a la perfección la complejidad del consentimiento en la era del rastreo de IA. La plataforma presentó una propuesta para permitir a los usuarios aceptar o rechazar que sus publicaciones sean analizadas para el entrenamiento de IA. Según el director ejecutivo de Bluesky, Jay Graber, esta propuesta representaba una forma de dar a las personas más control sobre el uso de su contenido, pero generó una reacción negativa. Muchos usuarios malinterpretaron la función propuesta como un posible cambio en la política de la plataforma que permitiría a Bluesky entrenar a la IA con las publicaciones de los usuarios, en lugar de una herramienta para controlar a terceros. La propuesta aún no ha generado ninguna acción ni cambio en la plataforma.

La confusión refleja un problema más amplio: la mayoría de las personas no saben cómo expresar sus preferencias de consentimiento en línea para su contenido, si es que existen opciones. Si existen, los mecanismos técnicos suelen estar ocultos, ser inconsistentes o limitarse al control a nivel de dominio.

Herramientas emergentes para el consentimiento a nivel de contenido

A medida que se hacen más evidentes las limitaciones de los controles a nivel de dominio, como robots.txt, surgen nuevos enfoques para integrar el consentimiento directamente en el contenido, haciéndolo portátil, persistente y compatible con cualquier plataforma. Algunos se centran en integrar las señales de consentimiento directamente en archivos individuales, lo que facilita la gestión de las preferencias por parte de los creadores en diferentes plataformas.

Algunos ejemplos incluyen la adición de metadatos legibles por máquina directamente en imágenes, vídeos y otros archivos digitales, así como herramientas como el conjunto de herramientas «No entrenar» de Spawning o la propuesta TDM·AI, que ofrecen soluciones fáciles de usar para el control a nivel de contenido. Además, se recomiendan las cabeceras HTTP estructuradas y la expansión de los mecanismos de señalización a las API y los servicios en la nube para garantizar una comunicación de preferencias consistente en diversos entornos digitales. Juntas, estas herramientas ofrecen una forma más escalable y centrada en el creador de gestionar la circulación y el uso del contenido en línea, especialmente en el contexto del entrenamiento de IA.

Por qué las señales no son suficientes sin la aplicación de la ley

Expresar el consentimiento es solo una parte de la ecuación. Garantizar su respeto es la otra. Las herramientas propuestas actualmente se basan completamente en el cumplimiento voluntario. Sin la aplicación de la ley, incluso las señales más claras pueden ignorarse. La creciente reacción contra el scraping de IA refleja una mayor preocupación por la erosión de las normas establecidas en línea.

A medida que los reguladores, principalmente en la UE, avanzan para definir marcos legales para la transparencia y el uso de datos de IA, la comunidad técnica tiene un margen limitado para intervenir y ayudar a definir normas significativas y aplicables. La Ley de IA de la UE y el Código de Prácticas que la acompaña han cobrado mayor urgencia, ya que los titulares de derechos y las organizaciones culturales exigen garantías aplicables y mecanismos de exclusión voluntaria (y participación voluntaria) más efectivos. Si queremos herramientas que realmente empoderen a los creadores, las preferencias expresadas deben estar respaldadas por la rendición de cuentas, lo que implica regulación, no solo buenas prácticas.

Recomendaciones

Hacerlo bien es crucial, no solo para editores y artistas, sino también para investigadores y periodistas cuyo trabajo depende del acceso abierto a la información. Mientras los responsables políticos y los tecnólogos debaten el futuro del uso de datos de IA, es el momento de opinar. Para opinar, considere unirse a las conversaciones con el IETF (https://www.ietf.org/blog/aipref-wg/) o seguir los próximos eventos y transmisiones en vivo desde Bruselas (https://www.youtube.com/channel/UC8dtK9njBLdFnBahHFp0eZQ).

Aquí están nuestras recomendaciones para construir un internet mejor para los creadores de contenido:

Empodera a los creadores con señales a nivel de contenido: Los creadores necesitan formas sencillas e integradas de expresar cómo se puede y no se puede usar su trabajo. Estas señales deben integrarse directamente en el propio contenido (imágenes, videos, archivos de texto), no solo a nivel de dominio. Esto hace que las preferencias sean portables, persistentes e independientes de la plataforma. * **Priorizar las señales claras ahora, esperar su aplicación pronto:**Cuanto más consistentes y comprensibles sean nuestros sistemas de señalización, más fácil será para los responsables políticos elaborar normas aplicables en torno a ellos. Necesitamos una infraestructura que siente las bases para la acción regulatoria.
Esperar complejidad: Para una adopción generalizada, los diseños técnicos deben ser ligeros e interoperables, mientras que los marcos legales que los respaldan deben ser robustos. En otras palabras, no podemos reducir las relaciones complejas de derechos y equidad a protocolos diseñados para sistemas automatizados y comunicación entre servicios. Necesitamos señales que no solo sean legibles para las máquinas, sino que también sean utilizables y comprensibles para las personas a las que deben proteger.
**Que alguien lance una alternativa ética:**Existe una creciente demanda entre los desarrolladores y usuarios cotidianos de sistemas de IA entrenados con datos de origen ético. Para las empresas que buscan destacar, crear o respaldar modelos que respeten el consentimiento del creador no solo es lo correcto. Es una oportunidad de mercado a punto de materializarse.

Problema 5021

La tendencia de la IA al estilo Ghibli muestra por qué los creadores necesitan sus propias herramientas de consentimiento

Los límites de Robots.txt

Herramientas emergentes para el consentimiento a nivel de contenido

Por qué las señales no son suficientes sin la aplicación de la ley

Recomendaciones