Report 5050

L'année dernière à la même époque, les gros titres et les documents judiciaires regorgeaient de déclarations grandiloquentes de sociétés d'IA utilisant du contenu piraté pour entraîner leurs modèles d'intelligence artificielle. Arnaquer des écrivains, des musiciens et des artistes afin de bâtir des entreprises milliardaires constituait une « utilisation équitable » de leur matériel, affirmaient ces acteurs influents et révolutionnaires. L'utilisation équitable – un concept jusqu'alors largement appliqué à la citation de quelques lignes dans une critique de livre – a été invoquée comme couverture juridique pour le vol de propriété intellectuelle le plus éhonté et le plus massif de l'histoire.

OpenAI, créateur de ChatGPT, s'est rendu à Londres et a ouvertement admis devant le Parlement britannique que son modèle économique ne pouvait réussir sans voler la propriété d'autrui.

« Il serait impossible d'entraîner les principaux modèles d'IA actuels sans utiliser de matériel protégé par le droit d'auteur », a écrit l'entreprise dans un témoignage soumis à la Chambre des Lords. Limiter les données d'entraînement aux livres et dessins du domaine public créés il y a plus d'un siècle pourrait donner lieu à une expérience intéressante, mais ne permettrait pas de fournir des systèmes d'IA répondant aux besoins des citoyens d'aujourd'hui.

L'argument d'OpenAI a omis un point évident : bien sûr, les modèles d'IA doivent être entraînés avec des données de haute qualité. Les développeurs doivent simplement rémunérer équitablement les propriétaires de ces ensembles de données pour leur utilisation. On pourrait également affirmer que « sans accès à la nourriture dans les supermarchés, des millions de personnes mourraient de faim ». Oui. Tout à fait. Mais il faut payer l'épicier.

Dans le même temps, d'autres entreprises ont fait valoir que payer l'épicier constituait un obstacle économique et logistique trop important à surmonter.

Anthropic, développeur du modèle Claude AI, a répondu à un procès pour violation de droits d'auteur il y a un an en arguant que le marché des données d'entraînement n'existait tout simplement pas. Il s'agissait d'un concept purement théorique, une invention de l'imagination. Devant un tribunal fédéral, Anthropic a soumis l'avis d'expert de l'économiste Steven R. Peterson (https://storage.courtlistener.com/recap/gov.uscourts.tnmd.96652/gov.uscourts.tnmd.96652.67.19_1.pdf). « L'analyse économique », a écrit Peterson, « montre que le marché concurrentiel hypothétique des licences couvrant les données nécessaires à la formation de LLM de pointe serait impraticable. »

Obtenir l'autorisation des propriétaires pour utiliser leurs biens : une tâche fastidieuse et coûteuse.

Anthropic affirmait qu'en l'absence de marché pour les données de formation, les titulaires de droits d'auteur ne pouvaient prétendre à aucune perte financière pour l'utilisation réelle ou potentielle de leur œuvre. Et l'un des critères d'utilisation équitable repose sur la question de la valeur commerciale injustement prélevée. Du point de vue d'Anthropic : pas de valeur, pas de préjudice. Pas de préjudice, pas de faute.

Un an plus tard, l'émergence d'un marché robuste pour les données d'entraînement de l'IA a pratiquement réduit à néant ces arguments. Il s'avère que ce n'est pas « impraticable » après tout.

Ce changement radical a commencé discrètement au printemps 2024. Alors même que ses avocats défendaient le piratage devant les juges fédéraux, OpenAI a commencé à signer des accords avec de grandes entreprises médiatiques internationales pour l'utilisation de leurs contenus protégés par le droit d'auteur comme données d'entraînement. Axel Springer, le journal français Le Monde et l'espagnol Prisa Media ont signé des accords pour fournir au créateur de ChatGPT du matériel pour entraîner ses modèles d'IA. En avril, le Financial Times a signé un accord obligeant ChatGPT à attribuer correctement les résumés du FT au journal économique de haut niveau.

Les vannes se sont ouvertes peu après. Reuters et l'Associated Press ont conclu des accords avec OpenAI, tout comme Hearst, The Guardian, Conde Nast, Vox, TIME et The Atlantic. Microsoft a conclu un accord avec USA Today. Perplexity a eu accès aux travaux d'AdWeek, Fortune, Stern, The Independent et Los Angeles Times. Ne se contentant pas de louer son contenu, OpenAI est devenu le mois dernier copropriétaire d'Axios (https://www.axios.com/2025/01/15/open-ai-axios-local-newsrooms-funding-deal), l'une des principales sociétés de médias couvrant l'industrie de l'intelligence artificielle.

Aujourd'hui, le paysage des accords entre l'IA et les médias est tellement encombré de noms familiers que les responsables des comptes commencent à manquer de place. Ezra Eeman, responsable de la stratégie et de l'innovation chez le radiodiffuseur néerlandais NPO, a récemment publié la visualisation la plus récente des principaux acteurs et des accords connus :

« J'ai l'impression d'avoir mis à jour cette diapositive plus que n'importe quelle autre de mes présentations », a commenté Eeman.

Cependant, même au moment de l'annonce de ces accords, il manquait encore quelque chose : les chiffres.

Comme il s'agissait d'accords entre entreprises, le montant réel des transactions restait mystérieux. Il existait clairement un marché pour les données d'entraînement d'IA de haute qualité, mais… combien OpenAI et Meta payaient-ils réellement ?

C'est au secteur de l'édition, pourtant lent, qu'il incombait enfin de décrypter la situation.

En novembre 2024, la Guilde des auteurs a révélé que HarperCollins, le principal éditeur appartenant à NewsCorp, avait conclu un accord avec Microsoft pour utiliser certains de ses ouvrages de non-fiction afin d'entraîner ses modèles d'IA. Le coût : 5 000 $ par titre pour le droit d'utiliser la prose comme données d'entraînement pendant trois ans.

Enfin ! Un chiffre !

Il s'agit, juridiquement parlant, d'une affaire très importante, pour des raisons que j'expliquerai plus loin.

Tout d'abord, il convient de noter que les termes de l'accord n'ont pas été révélés par HarperCollins ou Microsoft, mais par des auteurs individuels dont l'autorisation était nécessaire pour utiliser leurs titres. La Guilde des auteurs, qui s'est imposée comme un défenseur majeur du droit d'auteur et des droits d'auteur à l'ère de l'IA (et qui poursuit activement OpenAI et Microsoft au nom de ses membres), a agi en tant qu'agent de transparence.

Agent est un choix de mot intentionnel. Dans le monde du sport professionnel, il est bien connu que les agents divulguent les termes de contrats fraîchement signés aux journalistes d'ESPN. C'est un élément essentiel de leur travail, car cela détermine le marché pour le prochain contrat, puis le suivant, et ainsi de suite. Si votre client est un quarterback de niveau intermédiaire, vous ne pouvez pas connaître sa valeur sans connaître le salaire de Patrick Mahomes.

La Guilde des auteurs est consciente de cette dynamique. Elle s'est associée à une nouvelle startup, Created By Humans, qui invente un nouveau type d'agence littéraire spécialisée dans les droits d'entraînement à l'IA. Created By Humans recrute des auteurs afin de proposer leurs œuvres, individuellement ou en lots, à des fins de formation. Grâce à l'accord avec HarperCollins, elle a désormais une idée de la valeur de son produit sur le marché.

(À titre d'information : mes propres œuvres non fictionnelles ont été piratées et utilisées illégalement dans la base de données Books3, récupérée sur Internet. Je me suis inscrit auprès de Created By Humans pour proposer légalement mes livres à des fins d'entraînement à l'IA.)

Des agences similaires de droits d'entraînement voient le jour pour octroyer des licences légales aux œuvres d'artistes, de photographes et de créateurs de vidéos. Calliope Networks a créé une « licence de scraping » qui donne aux créateurs YouTube davantage de contrôle sur l'utilisation de leur contenu pour l'entraînement à l'IA. L'été dernier, une poignée d'entreprises de licences d'images ont formé la Dataset Providers Alliance pour protéger les droits d'auteur et renforcer l'utilisation d'images sous licence légale dans la formation en IA.

Pour comprendre pourquoi le montant de 5 000 $ par titre de HarperCollins est si important, il faut connaître une affaire connue sous le nom de Spokeo et le seuil de recevabilité devant un tribunal fédéral.

En gros, si vous souhaitez poursuivre une entreprise comme OpenAI pour avoir causé un préjudice – en l'occurrence, le vol de la propriété intellectuelle d'autrui – les tribunaux fédéraux exigent que vous prouviez un préjudice réel. Dans une affaire de 2016, connue sous le nom de Spokeo Inc. c. Robins (concernant un rapport de solvabilité inexact, mais vous n'avez pas besoin d'en savoir plus), les tribunaux fédéraux ont établi un précédent selon lequel les plaignants doivent démontrer qu'ils ont subi un préjudice de fait concret, particulier et actuel ou imminent.

Comme cela s'est produit dans l'Amérique capitaliste, cette situation a été largement interprétée comme signifiant qu'un plaignant doit démontrer une perte financière ou un préjudice pécuniaire. Sans cela, une action en justice ne sera même pas entendue par un tribunal fédéral. Le plaignant se verra refuser la qualité pour agir.

C'est ce qui s'est produit lors d'un premier procès relatif aux droits d'auteur liés à l'IA, Raw Story Media contre OpenAI, dans lequel deux médias alternatifs ont poursuivi OpenAI pour violation. En novembre 2024, quelques jours seulement avant la fuite des chiffres de HarperCollins, un juge fédéral a rejeté le procès Raw Story car les avocats des médias alternatifs qui s'étaient joints à la plainte n'ont pas pu démontrer de préjudice financier réel. Raw Story ne disposait d'aucune preuve reliant l'utilisation de son contenu par OpenAI à la perte de revenus « réelle ou imminente ». Aujourd'hui, quelques mois plus tard, nous disposons des preuves qui n'étaient pas disponibles pour les avocats de Raw Story. Le contenu protégé par le droit d'auteur de Raw Story a bien une valeur monétaire, et son utilisation sans consentement constitue un vol. Pourquoi ? Parce que nous pouvons désormais mettre en évidence un marché florissant pour les données d'entraînement d'IA sous licence légale (voir l'annexe A ci-dessus, avec l'aimable autorisation d'Ezra Eeman) et un prix réel payé pour l'utilisation de ces données.

L'existence confirmée de ce marché aura un impact profond sur l'avenir des affaires fédérales de droit d'auteur. Nous constatons déjà que de plus en plus de décisions donnent raison aux plaignants propriétaires de contenus.

Début janvier, des documents du procès Kadrey c. Meta, une affaire majeure de violation de droits d'auteur contre Meta et son modèle d'IA Llama, ont révélé que les membres de l'équipe d'IA de Meta étaient clairement conscients qu'ils utilisaient (selon leurs propres termes) du « matériel piraté » pour entraîner leur modèle. « L'utilisation de matériel piraté devrait dépasser notre seuil éthique », a écrit un ingénieur en IA à un autre ingénieur.

Les avocats de Meta ont tenté d'empêcher toute nouvelle découverte des communications internes de l'entreprise, mais le juge Vince Chhabria du tribunal de district américain a qualifié leur requête d'« absurde ».

« Il est clair que la demande de mise sous scellés de Meta n'est pas destinée à protéger contre la divulgation d'informations commerciales sensibles que des concurrents pourraient exploiter à leur avantage », a-t-il écrit (https://storage.courtlistener.com/recap/gov.uscourts.cand.415175/gov.uscourts.cand.415175.373.0.pdf). « Elle vise plutôt à éviter une publicité négative. »

Quelques semaines plus tard, le juge, dans une autre affaire fédérale de violation du droit d'auteur, est parvenu à une conclusion similaire concernant Ross AI, l'entreprise accusée d'avoir volé la propriété intellectuelle de Thomson Reuters et de sa plateforme de recherche juridique Westlaw. « Aucune des défenses possibles de Ross ne tient la route » face aux accusations de violation de droits d'auteur, a écrit le juge Stephanos Bibas de la Cour de district américaine (https://www.courtlistener.com/docket/17131648/thomson-reuters-enterprise-centre-gmbh-v-ross-intelligence-inc/?order_by=desc).

D'autres décisions de ce type seront rendues dans les semaines et les mois à venir. Et les grandes entreprises d'IA commenceront à se démener pour trouver un accord à l'amiable. L'absence de marché établi pour les données d'entraînement de l'IA, avec des preuves de transactions financières réelles, était la pierre angulaire de leur défense.

Ce double coup dur – la divulgation de 5 000 $ par HarperCollins et les accords conclus par les développeurs d'IA avec les médias – a fait voler cette pierre angulaire.

Le matériel protégé par le droit d'auteur a une valeur monétaire réelle en tant que données d'entraînement de l'IA. Celui qui le vole ne vole pas des ordures. Il me vole mon porte-monnaie.

Problème 5050

Comment le marché émergent des données de formation à l'IA érode la défense du droit d'auteur des grandes entreprises technologiques en matière d'utilisation équitable