Report 5580

David Baldacci, auteur de thrillers juridiques à succès, a vu son fils demander à ChatGPT d'élaborer une intrigue à la manière d'un roman de David Baldacci. En cinq secondes, a-t-il déclaré aux sénateurs américains lors d'une audition cette semaine sur l'intelligence artificielle et le droit d'auteur, le chatbot a craché un pastiche de personnages, de décors et de rebondissements étrangement familiers.

« J'avais vraiment l'impression que quelqu'un avait fait marche arrière devant mon imagination et volé tout ce que j'avais créé », a-t-il déclaré.

Baldacci fait partie d'un groupe d'auteurs poursuivant OpenAI et Microsoft en justice pour l'utilisation de leurs travaux par ces entreprises pour entraîner le logiciel d'IA derrière des outils tels que ChatGPT et Copilot, sans autorisation ni paiement. Il s'agit de l'une des 40 poursuites judiciaires contre des entreprises d'IA actuellement en cours devant les tribunaux du pays. Cette semaine, lui et d'autres auteurs ont lancé un appel au Congrès pour qu'il les aide à lutter contre ce qu'ils considèrent comme une attaque des géants de la technologie contre leur profession et l'âme de la littérature.

Mercredi, ils ont trouvé une oreille attentive lors d'une audition devant une sous-commission sénatoriale, où les législateurs ont exprimé leur indignation face aux pratiques de l'industrie technologique. Leur cause a pris un nouvel élan jeudi lorsqu'un juge fédéral a accordé le statut de recours collectif à un autre groupe d'auteurs qui accusent l'entreprise d'intelligence artificielle Anthropic d'avoir piraté leurs livres.

« Je considère cela comme l'un des problèmes moraux de notre époque en matière de technologie », a déclaré Ralph Eubanks, auteur et professeur à l'Université du Mississippi, également président de l'Authors Guild, lors d'un entretien téléphonique. « Parfois, cela m'empêche de dormir. »

Des poursuites judiciaires ont révélé que certaines entreprises d'intelligence artificielle avaient utilisé des sites « torrent » légalement douteux pour télécharger des millions de livres numérisés sans avoir à les payer.

Auteurs et éditeurs de livres font partie des nombreux groupes de professionnels de la création et de titulaires de droits d'auteur qui poursuivent les entreprises technologiques et réclament des lois interdisant l'utilisation d'œuvres publiées pour des projets d'intelligence artificielle sans autorisation. Des artistes, des musiciens, des journaux, des photographes et des blogueurs ont également porté plainte.

Les leaders du secteur technologique affirment que cette pratique est autorisée par le droit d'auteur, au titre de « fair use », et qu'elle est essentielle à leurs efforts pour développer une IA plus intelligente que n'importe quel humain. Certains ont déclaré que s'ils n'étaient pas autorisés à continuer d'utiliser du contenu protégé par le droit d'auteur, les États-Unis perdraient du terrain dans leur course à l'IA avec la Chine.

Eubanks et plusieurs autres auteurs étaient présents mercredi lors du témoignage de Baldacci lors d'une audience convoquée par le sénateur Josh Hawley (R-Missouri), président de la sous-commission judiciaire du Sénat sur la criminalité et la lutte contre le terrorisme.

« L'audience d'aujourd'hui porte sur le plus grand vol de propriété intellectuelle de l'histoire américaine », a déclaré Hawley.

Il s'agissait de la première audience du Congrès à se concentrer sur la situation critique des auteurs, faisant suite aux récentes décisions de la Cour fédérale dans des affaires intentées par des auteurs et des éditeurs contre Meta et Anthropic.

Les deux entreprises n'ont pas contesté l'utilisation de dépôts en ligne pour télécharger des livres piratés. Mais les entreprises ont fait valoir qu'elles étaient en droit d'utiliser le matériel en interne pour créer des « grands modèles linguistiques » de pointe, tels que Llama de Meta ou Claude d'Anthropic.

Une question clé pour les tribunaux est de savoir si ces outils d'IA concurrencent les livres utilisés pour les créer. Le mois dernier, les juges des affaires Meta et Anthropic ont largement accepté l'argument des entreprises selon lequel l'entraînement de leurs modèles sur du matériel protégé par le droit d'auteur pouvait être qualifié d'« usage équitable ».

C'est un signe encourageant pour le secteur de l'IA, a déclaré James Grimmelmann, professeur de droit numérique et de l'information à l'Université Cornell, et un coup dur pour les créateurs et les éditeurs qui espèrent que les entreprises seront contraintes de payer pour utiliser leurs œuvres.

Mais certaines parties de l'affaire Anthropic ont été autorisées à se poursuivre, le juge de district américain William Alsup ayant conclu que l'entreprise pourrait avoir violé le droit d'auteur lors de l'obtention des livres, même si l'entraînement lui-même constituait un usage équitable. Jeudi, Alsup a également accordé à la plainte le statut de recours collectif, ce qui signifie que tout auteur dont les livres faisaient partie de l'ensemble de données prétendument piraté pourrait être éligible à des dommages et intérêts auprès de l'entreprise si celle-ci est reconnue coupable.

La porte-parole d'Anthropic, Jennifer Martinez, a déclaré à l'époque que l'entreprise appréciait la décision du tribunal concernant l'usage équitable. Elle a ajouté que l'entreprise avait entraîné ses modèles sur des œuvres non pas pour les reproduire, mais pour « franchir un cap difficile et créer quelque chose de différent ». Mme Martinez a déclaré vendredi qu'Anthropic désapprouvait la décision d'accorder le statut de recours collectif au reste de la plainte et « explorait toutes les pistes de révision ».

Dans l'affaire Meta, le juge fédéral Vince Chhabria a rejeté la plupart des arguments des auteurs, estimant qu'ils n'avaient pas démontré avoir subi un préjudice du fait de l'utilisation de leurs œuvres par Meta.

Le porte-parole de Meta, Christopher Sgro, a déclaré à l'époque que l'entreprise appréciait la décision. « L'utilisation équitable des œuvres protégées par le droit d'auteur est un cadre juridique essentiel au développement de cette technologie transformatrice », a-t-il déclaré, affirmant que l'IA, telle que celle de Meta, alimentait des innovations transformatrices pour les particuliers et les entreprises.

Mais dans sa décision, Chhabria a également établi ce que Grimmelmann a appelé une « feuille de route » que les plaignants pourraient utiliser dans de futures affaires pour démontrer de tels préjudices. Il a suggéré que les auteurs et autres créateurs pourraient prétendre que les outils d'IA et les chatbots nuiront aux ventes de leurs œuvres originales en inondant le marché d'imitations bon marché.

Cet argument n'a pas été testé dans les affaires de droit d'auteur, a déclaré Grimmelmann. Il prédit qu'il faudra probablement des années – et la Cour suprême – pour déterminer comment le droit d'auteur s'applique à l'IA.

C'est l'une des raisons pour lesquelles certains militants espèrent que les législateurs interviendront. Lors de l'audience de mercredi, Hawley, critique virulent de Meta et de son PDG Mark Zuckerberg, a déclaré qu'il trouvait exaspérant qu'un tribunal ait considéré comme une utilisation équitable l'utilisation non autorisée de livres par l'entreprise pour entraîner ses modèles d'IA.

Si une entreprise aussi importante et précieuse « peut s'emparer de l'œuvre d'un auteur comme M. Baldacci, mentir à son sujet, la dissimuler, en tirer profit, sans que notre loi ne puisse rien y faire », a déclaré Hawley, « nous devons la modifier ».

Le sénateur Peter Welch (Démocrate-Vermont) a vanté un projet de loi, co-rédigé avec la sénatrice Marsha Blackburn (Républicaine-Tennessee), intitulé « Train Act », qui permettrait aux créateurs et aux titulaires de droits d'auteur de saisir les tribunaux pour déterminer si une entreprise a utilisé leur œuvre pour créer ses modèles d'IA. Prouver qu'un outil d'IA a été entraîné sur une œuvre donnée peut s'avérer difficile, car les ensembles de données utilisés sont très vastes et les processus d'entraînement opaques.

Baldacci a expliqué à Welch que, dans son cas, OpenAI et Microsoft avaient reconnu avoir utilisé 44 de ses livres sans autorisation.

« C'est stupéfiant », a déclaré Welch. « Nous ne pouvons tout simplement pas permettre cela. C'est tout simplement inacceptable. » Le Washington Post a conclu un partenariat de contenu avec OpenAI.

Edward Lee, professeur de droit à l'Université de Santa Clara, a présenté un point de vue plus favorable à l'industrie lors de l'audience. Il a déclaré que les juges des affaires Meta et Anthropic ont reconnu à juste titre que l'utilisation de livres pour entraîner des modèles d'IA est véritablement « transformatrice » – un critère clé de l'usage équitable.

Lee a mis en garde les législateurs contre toute législation avant que les tribunaux ne se soient prononcés, ajoutant que les États-Unis ont un intérêt vital dans la réussite de leur industrie de l'IA.

Le sénateur Dick Durbin (démocrate de l'Illinois) a déclaré vouloir trouver un équilibre entre la promotion de l'innovation et la protection et l'encouragement des artistes et des créatifs. « Comment les créateurs peuvent-ils concurrencer les entreprises d'IA qui génèrent du contenu en un clic, en particulier lorsque ce contenu est susceptible d'imiter, voire de reproduire, leur propre travail ? », a-t-il demandé.

S'exprimant après l'audience, Eubanks a déclaré que son expérience d'enseignant à des étudiants universitaires utilisant des outils tels que ChatGPT le faisait craindre que l'IA n'érode non seulement le marché du livre, mais aussi l'art d'écrire. Il constate de plus en plus de signes d'utilisation d'outils d'IA par les étudiants pour les aider à rédiger leurs dissertations, ce qui remet en cause son intention de stimuler les individus à développer leur propre opinion grâce à ces exercices.

Si les législateurs des deux partis ont été bienveillants mercredi, il semble peu probable que de nouvelles lois soient adoptées prochainement. De nombreux membres de la commission ont manqué l'audition en raison d'autres incidents au Capitole ce jour-là, ce qui suggère que l'IA et le droit d'auteur pourraient ne pas figurer en tête de l'ordre du jour du Congrès.

Problème 5580

Incidents associés

Incident 9963 Rapports
Meta Allegedly Used Books3, a Dataset of 191,000 Pirated Books, to Train LLaMA AI

L'IA a englouti des millions de livres sans autorisation. Les auteurs ripostent.

Problème 5580

Incidents associés

Incident 9963 RapportsMeta Allegedly Used Books3, a Dataset of 191,000 Pirated Books, to Train LLaMA AI

L'IA a englouti des millions de livres sans autorisation. Les auteurs ripostent.

Incident 9963 Rapports
Meta Allegedly Used Books3, a Dataset of 191,000 Pirated Books, to Train LLaMA AI