Report 3226

La comédienne et auteure Sarah Silverman, ainsi que les auteurs Christopher Golden et Richard Kadrey, poursuivent OpenAI et Meta chacun devant un tribunal de district des États-Unis pour [double réclamation pour violation du droit d'auteur](https://llmlitigation. com/).

Les poursuites allèguent, entre autres choses, que ChatGPT d'OpenAI et LLaMA de Meta ont été formés sur des ensembles de données acquis illégalement contenant leurs œuvres, qui, selon eux, ont été acquis à partir de sites Web de « bibliothèques fantômes » comme Bibliotik, Library Genesis, Z-Library et d'autres, notant les livres sont « disponibles en masse via des systèmes torrent ».

Golden et Kadrey ont chacun refusé de commenter le procès, tandis que l'équipe de Silverman n'a pas répondu au moment de mettre sous presse.

Dans le cadre de la poursuite OpenAI, le trio propose des expositions montrant que lorsque vous y êtes invité, ChatGPT résumera leurs livres , portant atteinte à leurs droits d'auteur. Bedwetter de Silverman est le premier livre présenté résumé par ChatGPT dans les expositions, tandis que le livre de Golden Ararat est également utilisé comme exemple, tout comme le livre de Kadrey Sandman Slim. La plainte indique que le chatbot n’a jamais pris la peine de « reproduire les informations sur la gestion des droits d’auteur incluses par les plaignants dans leurs œuvres publiées ».

Quant au procès distinct contre Meta, il allègue que les livres des auteurs étaient accessibles dans les ensembles de données utilisés par Meta pour former ses modèles LLaMA, un quartet de modèles d'IA open source la société a présenté en février.

La plainte expose par étapes les raisons pour lesquelles les plaignants pensent que les ensembles de données ont des origines illicites : dans un méta-article détaillant LLaMA, l'entreprise indique les sources de ses ensembles de données de formation, dont l’un s’appelle ThePile, qui a été assemblé par une société appelée EleutherAI. ThePile, souligne la plainte, a été décrit dans un article d'EleutherAI comme étant constitué à partir d'« une copie du contenu du tracker privé Bibliotik ». Bibliotik et les autres « bibliothèques fantômes » répertoriées, selon le procès, sont « manifestement illégales ».

Dans les deux cas, les auteurs affirment qu’ils « n’ont pas consenti à l’utilisation de leurs livres protégés par le droit d’auteur comme matériel de formation » pour les modèles d’IA des entreprises. Leurs poursuites contiennent chacune six chefs d'accusation pour divers types de violations du droit d'auteur, de négligence, d'enrichissement sans cause et de concurrence déloyale. Les auteurs demandent des dommages-intérêts légaux, la restitution des bénéfices, etc.

Les avocats Joseph Saveri et Matthew Butterick, qui représentent les trois auteurs, écrivent sur leur site Web LLMlitigation qu'ils ont entendu des « écrivains, auteurs et éditeurs préoccupés par [ ChatGPT's] capacité étrange à générer un texte similaire à celui trouvé dans des documents textuels protégés par le droit d'auteur, y compris des milliers de livres.

Saveri a également engagé des poursuites contre des sociétés d'IA au nom de programmeurs et artistes. Getty Images a également déposé une plainte contre l'IA, alléguant que Stability AI, qui a créé l'outil de génération d'images IA Stable Diffusion, a formé son modèle sur « des millions d'images protégées par le droit d'auteur ». Saveri et Butterick représentent également les auteurs Mona Awad et Paul Tremblay [dans une affaire similaire](https://www.theguardian.com/books/2023/jul/05/authors-file-a-lawsuit-against-openai-for (ingérant-illégalement-leurs-livres) via le chatbot de l'entreprise.

Des poursuites comme celle-ci ne sont pas seulement un casse-tête pour OpenAI et d’autres sociétés d’IA ; ils remettent en question les limites mêmes du droit d'auteur. Comme nous l'avons dit sur The Vergecast, chaque fois que quelqu'un incite Nilay à contester la loi sur le droit d'auteur, nous allons voir des poursuites judiciaires centrées sur ce sujet pendant [les années à venir](https://www.theverge.com/2023/4/ 1/23666153/le-dilemme-du-copyright-ai-est-probablement-une-décennie-de-procès-à-venir).

Nous avons contacté Meta, OpenAI et le cabinet d'avocats Joseph Saveri pour commentaires, mais ils n'ont pas répondu au moment de la publication.

Problème 3226

Incidents associés

Incident 9963 Rapports
Meta Allegedly Used Books3, a Dataset of 191,000 Pirated Books, to Train LLaMA AI

Sarah Silverman poursuit OpenAI et Meta pour violation du droit d'auteur

Problème 3226

Incidents associés

Incident 9963 RapportsMeta Allegedly Used Books3, a Dataset of 191,000 Pirated Books, to Train LLaMA AI

Sarah Silverman poursuit OpenAI et Meta pour violation du droit d'auteur

Incident 9963 Rapports
Meta Allegedly Used Books3, a Dataset of 191,000 Pirated Books, to Train LLaMA AI