Report 5021

Le flot d’images d’IA de style Studio Ghibli de la semaine dernière généré par la dernière mise à jour d’OpenAI pour GPT-4o a rapidement captivé l’imagination d’Internet, attirant plus d’un million de nouveaux utilisateurs sur la plateforme en une seule journée. Ciels oniriques, visages expressifs et coups de pinceau doux reproduisaient avec brio l'esthétique signature du studio, et ce style fut rapidement appliqué à tout, des mèmes populaires aux photos de famille. Sam Altman, PDG d'OpenAI, a suivi la tendance en remplaçant son avatar X par une image inspirée du Studio Ghibli et en tweetant à ce sujet. La Maison Blanche s'en est également mêlée, publiant une image particulièrement cruelle d'une femme arrêtée plus tôt ce mois-ci par les services de l'immigration et des douanes américains.

La ressemblance de ces images avec le style du Studio Ghibli n'était pas fortuite. Ces images prouvent clairement qu'OpenAI a entraîné son modèle sur du contenu protégé par le droit d'auteur du Studio Ghibli, probablement récupéré sans autorisation.

Le studio n'a très probablement pas consenti à la reproduction de son style distinctif. Au milieu de la couverture médiatique de cette tendance, des commentaires ont refait surface du fondateur du studio Hayao Miyazaki, qui a déclaré un jour à propos des vidéos générées par l'IA : « Je suis profondément dégoûté… Je suis convaincu que c'est une insulte à la vie elle-même. » Si nous ne pouvons pas revenir en arrière, nous pouvons néanmoins mettre en place des protections pour la prochaine génération d'artistes et de meilleurs outils respectueux de la créativité.

Si nous voulons un Internet qui valorise le consentement, la créativité et l'équité, nous avons besoin d'outils qui respectent les limites fixées par les créateurs, qui doivent être attachées à leur travail. Les propositions actuelles pour gérer le scraping par l'IA se concentrent principalement sur le fichier robots.txt, qui est principalement utile aux propriétaires de sites web et aux éditeurs qui contrôlent leurs domaines. Cependant, le fichier robots.txt ne gère pas efficacement le contenu partagé entre les plateformes et ne permet pas aux créateurs de communiquer facilement leur consentement lors de la publication sur des sites tiers ou de la réutilisation de leur travail. Pour combler cette lacune, de nouvelles solutions émergent, allant de l'intégration de métadonnées lisibles par machine directement dans les fichiers à de nouveaux outils et protocoles visant à rendre le consentement plus portable, persistant et plus facile à appliquer.

Les limites du fichier robots.txt

De nombreuses discussions actuelles sur la gestion du scraping par l'IA portent sur la mise à jour du fichier robots.txt pour l'adapter à l'ère de l'IA. Si le fichier robots.txt est un outil essentiel en raison de sa simplicité, de son adoption généralisée et de son rôle de longue date dans l'orientation des robots d'exploration web, il n'a jamais été conçu pour servir d'outil fiable de gestion des droits. Initialement proposé il y a 30 ans comme un protocole simple et volontaire pour l'interaction entre les sites web et les robots d'indexation, il permet aux propriétaires de sites d'exprimer clairement et avec courtoisie la manière dont ils souhaitent que les moteurs de recherche, les chercheurs et les projets d'archivage traitent et utilisent leur contenu.

Ce système fonctionnait plutôt bien lorsque les robots d'indexation indexaient le contenu à des fins de recherche, de recherche ou d'archivage. Mais les enjeux sont bien plus importants aujourd'hui. Les systèmes d'IA actuels extraient d'énormes quantités de contenu du web ouvert, notamment de sites web comme Wikipédia, d'organes de presse comme The Guardian et The New York Times (qui poursuit actuellement OpenAI en justice), de livres du domaine public et piratés, de codes provenant de plateformes comme GitHub et de forums publics comme Reddit. Une partie de ce contenu est dans le domaine public ou sous licence ouverte, mais une grande partie est protégée par le droit d'auteur, ce qui soulève des préoccupations juridiques et éthiques persistantes.

Si le fichier robots.txt peut convenir aux propriétaires de sites web et aux éditeurs qui peuvent demander aux robots de récupération de données d'IA de fermer l'intégralité de leurs sites, il ne résout pas vraiment les problèmes rencontrés par les créateurs de contenu individuels, tels que les artistes, les musiciens, les écrivains et autres professionnels de la création qui partagent du contenu sur plusieurs plateformes ou sites web. Ces créateurs ont besoin d'un moyen de communiquer facilement leurs préférences en matière de consentement lorsqu'ils publient leur travail sur des sites tiers ou lorsque d'autres l'utilisent.

Un récent débat sur Bluesky a parfaitement illustré la complexité du consentement à l'ère du scraping de données par l'IA. La plateforme a présenté une proposition permettant aux utilisateurs de choisir d'accepter ou de refuser que leurs publications soient extraites pour l'entraînement de l'IA. Selon Jay Graber, PDG de Bluesky, cette proposition représentait un moyen de donner aux individus un plus grand contrôle sur l'utilisation de leur contenu, mais elle a suscité une vive réaction. De nombreux utilisateurs ont interprété la fonctionnalité proposée comme un changement potentiel de politique de la plateforme permettant à Bluesky d'entraîner l'IA sur les publications des utilisateurs, plutôt que comme un outil de contrôle des tiers. La proposition n'a encore donné lieu à aucune action ni modification de la plateforme.

Cette confusion met en lumière un problème plus vaste : la plupart des utilisateurs ne savent pas comment exprimer leurs préférences de consentement en ligne pour leur contenu, si tant est que les options existent. Si elles existent, les mécanismes techniques sont souvent cachés, incohérents ou limités à un contrôle au niveau du domaine.

Nouveaux outils pour le consentement au niveau du contenu

Alors que les limites des contrôles au niveau du domaine, comme robots.txt, deviennent de plus en plus évidentes, de nouvelles approches émergent pour intégrer le consentement directement au contenu, le rendant ainsi portable, persistant et indépendant de la plateforme. Certaines se concentrent sur l'intégration des signaux de consentement directement dans les fichiers individuels, facilitant ainsi la gestion des préférences des créateurs sur toutes les plateformes.

Les exemples incluent l'ajout de métadonnées lisibles par machine directement dans les images, les vidéos et autres fichiers numériques, et des outils tels que la suite d'outils Do Not Train de Spawning ou la proposition TDM·AI, qui fournissent des solutions conviviales pour les créateurs pour le contrôle au niveau du contenu. De plus, des en-têtes HTTP structurés et l'extension des mécanismes de signalisation aux API et aux services cloud sont suggérés pour garantir une communication cohérente des préférences dans différents environnements numériques. Ensemble, ces outils offrent une solution plus évolutive et centrée sur les créateurs pour gérer la circulation et l'utilisation des contenus en ligne, notamment dans le cadre de l'entraînement de l'IA.

Pourquoi les signaux ne suffisent pas sans application

L'expression du consentement n'est qu'une partie de l'équation. S'assurer de son respect en est une autre. Les outils actuels reposent entièrement sur le respect volontaire. Sans application, même les signaux les plus clairs peuvent être ignorés. La réaction croissante contre le scraping de données par l'IA reflète une préoccupation plus profonde quant à l'érosion des normes en ligne établies de longue date.

Alors que les régulateurs, principalement au sein de l'UE, s'efforcent de définir des cadres juridiques pour la transparence de l'IA et l'utilisation des données, la communauté technique dispose d'une marge de manœuvre limitée pour intervenir et contribuer à l'élaboration de normes pertinentes et applicables. La Loi européenne sur l'IA et le Code de bonnes pratiques qui l'accompagne revêtent une urgence accrue, car les titulaires de droits et les organisations culturelles exigent des garanties exécutoires et des mécanismes de refus (et d'adhésion) plus efficaces. Si nous voulons des outils qui donnent véritablement du pouvoir aux créateurs, les préférences exprimées doivent être étayées par une responsabilité, ce qui implique une réglementation, et pas seulement des bonnes pratiques.

Recommandations

Obtenir ce droit est crucial, non seulement pour les éditeurs et les artistes, mais aussi pour les chercheurs et les journalistes dont le travail dépend du libre accès à l'information. Alors que les décideurs politiques et les technologues débattent de l'avenir de l'utilisation des données de l'IA, il est temps de donner votre avis. Pour donner votre avis, pensez à rejoindre les discussions avec l'IETF ou à suivre les événements et diffusions en direct à venir depuis Bruxelles

Voici nos recommandations pour bâtir un Internet meilleur pour les créateurs de contenu :

Donner aux créateurs les moyens d'exprimer l'utilisation de leur travail : Les créateurs ont besoin de moyens simples et intégrés pour indiquer comment leur travail peut ou ne peut pas être utilisé. Ces signaux doivent être intégrés directement au contenu lui-même (images, vidéos, fichiers texte), et pas seulement au niveau du domaine. Cela rend les préférences portables, persistantes et indépendantes de la plateforme. * **Priorisez les signaux clairs dès maintenant, attendez-vous à une application rapide :**Plus nos systèmes de signalisation seront cohérents et compréhensibles, plus il sera facile pour les décideurs politiques d'élaborer des règles applicables. Nous avons besoin d'une infrastructure qui prépare le terrain pour l'action réglementaire.
Attendez-vous à la complexité : Pour une adoption généralisée, les conceptions techniques doivent être légères et interopérables, tandis que les cadres juridiques qui les soutiennent doivent être robustes. Autrement dit, nous ne pouvons pas réduire les relations complexes en matière de droits et d'équité à des protocoles conçus pour des systèmes automatisés et la communication interservices. Nous avons besoin de signaux qui ne soient pas seulement lisibles par les machines, mais qui soient utilisables et compréhensibles par les personnes qu'ils sont censés protéger.
**Que quelqu'un lance une alternative éthique :**On constate une demande croissante parmi les développeurs et les utilisateurs quotidiens pour des systèmes d'IA entraînés à partir de données provenant de sources éthiques. Pour les entreprises qui cherchent à se démarquer, créer ou soutenir des modèles qui respectent le consentement des créateurs n'est pas seulement la bonne chose à faire. C'est une opportunité de marché qui n'attend que de se concrétiser.

Problème 5021

La tendance de l'IA à la Ghibli montre pourquoi les créateurs ont besoin de leurs propres outils de consentement

Les limites du fichier robots.txt

Nouveaux outils pour le consentement au niveau du contenu

Pourquoi les signaux ne suffisent pas sans application

Recommandations