Report 4997

Mise à jour à 13h40 HE le 25 septembre 2023

Note de la rédaction : Cet article fait partie de la série de The Atlantic consacrée à Books3. Consultez notre base de données consultable Books3 pour trouver des auteurs et des titres spécifiques. Une analyse plus approfondie du contenu de la base de données est disponible ici.

L’un des problèmes les plus préoccupants concernant l’IA générative est simple : elle est développée en secret. Pour produire des réponses humaines aux questions, des systèmes comme ChatGPT traitent d'énormes quantités de documents écrits. Mais peu de personnes, en dehors d'entreprises comme Meta et OpenAI, connaissent l'étendue des textes sur lesquels ces programmes ont été entraînés.

Certains textes d'entraînement proviennent de Wikipédia et d'autres sources en ligne, mais une IA générative de haute qualité nécessite des données de meilleure qualité que celles que l'on trouve habituellement sur Internet, c'est-à-dire celles que l'on trouve dans les livres. Dans un procès intenté en Californie le mois dernier, les auteurs Sarah Silverman, Richard Kadrey et Christopher Golden allèguent que Meta a violé les lois sur le droit d'auteur en utilisant leurs livres pour entraîner LLaMA, un grand modèle de langage similaire à GPT-4 d'OpenAI --- un algorithme capable de générer du texte en imitant les modèles de mots qu'il trouve dans des exemples de textes. Mais ni le procès lui-même ni les commentaires qui l'entourent n'ont permis d'en savoir plus : nous ignorions jusqu'à présent avec certitude si LLaMA avait été entraîné sur les livres de Silverman, Kadrey ou Golden, ou sur d'autres.

En réalité, c'était le cas. J'ai récemment obtenu et analysé un ensemble de données utilisé par Meta pour entraîner LLaMA. Son contenu justifie amplement un aspect fondamental des allégations des auteurs : des livres piratés servent d'entrées à des programmes informatiques qui transforment notre façon de lire, d'apprendre et de communiquer. L'avenir promis par l'IA s'écrit avec des mots volés.

Plus de 170 000 livres, dont la majorité ont été publiés au cours des 20 dernières années, figurent dans les données d'entraînement de LLaMA. Outre les travaux de Silverman, Kadrey et Golden, des œuvres de Michael Pollan, Rebecca Solnit et Jon Krakauer sont utilisées, tout comme des thrillers de James Patterson et Stephen King, et d'autres œuvres de fiction de George Saunders, Zadie Smith et Junot Díaz. Français Ces livres font partie d'un ensemble de données appelé « Books3 », et son utilisation ne s'est pas limitée à LLaMA. Books3 a également été utilisé pour entraîner le BloombergGPT de Bloomberg, le GPT-J d'EleutherAI - un modèle open source populaire - et probablement d'autres programmes d'IA générative désormais intégrés dans des sites Web sur Internet. Un porte-parole de Meta a refusé de commenter l'utilisation de Books3 par l'entreprise ; un porte-parole de Bloomberg a confirmé par e-mail que Books3 avait été utilisé pour entraîner le modèle initial de BloombergGPT et a ajouté : « Nous n'inclurons pas l'ensemble de données Books3 parmi les sources de données utilisées pour entraîner les futures versions de BloombergGPT » ; et Stella Biderman, directrice exécutive d'EleutherAI, n'ont pas contesté que l'entreprise ait utilisé Books3 dans les données d'entraînement de GPT-J.

En tant qu'écrivain et programmeur informatique, je me suis intéressé aux types de livres utilisés pour entraîner les systèmes d'IA générative. Au début de l'été, j'ai commencé à lire des discussions en ligne entre développeurs d'IA, universitaires et amateurs, sur des sites comme GitHub et Hugging Face. Ces discussions m'ont finalement conduit à télécharger directement « la Pile », une énorme base de données de textes d'entraînement créée par EleutherAI. Elle contient l'ensemble de données Books3, ainsi que des documents provenant de diverses autres sources : sous-titres de vidéos YouTube, documents et transcriptions du Parlement européen, Wikipédia en anglais, courriels envoyés et reçus par les employés d'Enron Corporation avant sa faillite en 2001, et bien plus encore. Cette variété n'est pas vraiment surprenante. L'IA générative fonctionne en analysant les relations entre les mots dans un langage à consonance intelligente, et compte tenu de la complexité de ces relations, le sujet importe généralement moins que la quantité de texte. C'est pourquoi The-Eye.eu, un site qui hébergeait la Pile jusqu'à récemment – et qui a reçu une notification de retrait de la part d'un groupe danois de lutte contre le piratage – affirme que son objectif est « d'aspirer et de diffuser de grands ensembles de données ».

La Pile est trop volumineuse pour être ouverte dans un éditeur de texte ; j'ai donc écrit une série de programmes pour la gérer. J'ai d'abord extrait toutes les lignes intitulées « Books3 » afin d'isoler l'ensemble de données Books3. Voici un extrait de l'ensemble de données résultant :

{"text": "\n\nCe livre est une œuvre de fiction. Les noms, personnages, lieux et incidents sont le fruit de l'imagination des auteurs ou sont utilisés de manière fictive. Toute ressemblance avec des événements, des lieux ou des personnes réels, vivants ou décédés, serait purement fortuite.\n\n | POCKET BOOKS, une division de Simon & Schuster Inc. \n1230 Avenue of the Americas, New York, NY 10020 \nwww.SimonandSchuster.com\n\n---|---

Ceci est le début d'une ligne qui, comme toutes les lignes de l'ensemble de données, se poursuit sur plusieurs milliers de mots et contient le texte complet d'un livre. Mais de quel livre s'agit-il ? Il n'y avait aucune étiquette explicite avec les titres, les noms d'auteurs ou les métadonnées. Juste l'étiquette « texte », qui réduisait les livres à leur fonction d'entraînement pour l'IA. Pour identifier les entrées, j'ai écrit un autre programme pour extraire les ISBN de chaque ligne. J'ai saisi ces ISBN dans Un autre programme se connectait à une base de données de livres en ligne et récupérait les informations sur l'auteur, le titre et l'éditeur, que j'ai ensuite visualisées dans un tableur. Ce processus a révélé environ 190 000 entrées : j'ai pu identifier plus de 170 000 livres, dont environ 20 000 manquaient d'ISBN ou n'étaient pas dans la base de données. (Ce chiffre inclut également les rééditions avec des ISBN différents ; le nombre de livres uniques pourrait donc être légèrement inférieur au total.) En parcourant les résultats par auteur et par éditeur, j'ai commencé à me faire une idée de l'étendue de la collection.

Sur les 170 000 titres, environ un tiers sont des œuvres de fiction, deux tiers des ouvrages documentaires. Ils proviennent de grands et petits éditeurs. À titre d'exemple, plus de 30 000 titres proviennent de Penguin Random House et de ses maisons d'édition, 14 000 de HarperCollins, 7 000 de Macmillan, 1 800 d'Oxford University Press et 600 de Verso. La collection comprend des œuvres de fiction et de non-fiction d'Elena Ferrante et de Rachel Cusk. Elle comprend au moins neuf livres de Haruki Murakami, cinq de Jennifer Egan, sept de Jonathan Franzen, neuf de Bell Hooks, cinq de David Grann et 33 de Margaret Atwood. À noter également : 102 romans de gare de L. Ron Hubbard, 90 livres du pasteur créationniste John F. MacArthur, et plusieurs ouvrages pseudo-historiques d'Erich von Däniken sur la construction des pyramides par des extraterrestres. Dans un courriel, Biderman a notamment écrit : « Nous travaillons en étroite collaboration avec les créateurs et les ayants droit afin de comprendre et de soutenir leurs points de vue et leurs besoins. Nous créons actuellement une version de la Pile contenant exclusivement des documents sous licence pour cet usage. »

Bien que peu connu en dehors de la communauté de l'IA, Books3 est un jeu de données d'entraînement populaire. Hugging Face a facilité son téléchargement depuis l'Œil pendant plus de deux ans et demi ; son lien a cessé de fonctionner au moment où Books3 a été mentionné dans des poursuites contre OpenAI et Meta plus tôt cet été. L'universitaire Peter Schoppert a suivi son utilisation dans sa newsletter Substack. Books3 a également été cité dans les articles de recherche de Meta et Bloomberg annonçant la création de LLaMA et de BloombergGPT. Ces derniers mois, l'ensemble de données était pratiquement invisible, téléchargeable, mais difficile à trouver, à consulter et à analyser.

D'autres ensembles de données, contenant potentiellement des textes similaires, sont utilisés en secret par des entreprises comme OpenAI. Shawn Presser, le développeur indépendant de Books3, a déclaré (https://twitter.com/theshawwn/status/1320282153595396096) avoir créé cet ensemble de données pour fournir aux développeurs indépendants des « données d'entraînement de qualité OpenAI ». Son nom fait référence à un article publié par OpenAI en 2020, qui mentionnait deux « corpus de livres en ligne », Books1 et Books2. Cet article est la seule source primaire fournissant des indices sur le contenu des données d'entraînement de GPT-3 ; il a donc été examiné attentivement par la communauté des développeurs.

D'après les informations recueillies sur la taille de Books1 et Books2, Books1 serait le résultat complet du Projet Gutenberg, un éditeur en ligne de quelque 70 000 livres dont les droits d'auteur ou les licences ont expiré et qui autorisent une distribution non commerciale. Personne ne sait ce que contient Books2. Certains soupçonnent qu'il provient de collections de livres piratés, tels que Library Genesis, Z-Library et Bibliotik, qui circulent via le réseau de partage de fichiers BitTorrent. (Books3, comme Presser l'a annoncé après sa création, est « l'intégralité de Bibliotik ».)

Presser m'a dit par téléphone qu'il comprenait les préoccupations des auteurs. Mais le grand danger qu'il perçoit est le monopole de l'IA générative par de riches entreprises, leur donnant ainsi le contrôle total d'une technologie qui transforme notre culture. Il a créé Books3 dans l'espoir que cela permettrait à n'importe quel développeur de créer des outils d'IA générative. « Ce serait mieux si un outil comme Books3 n'était pas nécessaire », a-t-il déclaré. « Mais l'alternative est que, sans Books3, seul OpenAI peut faire ce qu'ils font. » Pour créer l'ensemble de données, Presser a téléchargé une copie de Bibliotik sur The-Eye.eu et a mis à jour un programme écrit il y a plus de dix ans par l'hacktiviste Aaron Swartz afin de convertir les livres du format ePub (une norme pour les livres numériques) en texte brut – une modification nécessaire pour que les livres puissent être utilisés comme données d'apprentissage. Bien que certains titres de Books3 manquent d'informations pertinentes sur la gestion des droits d'auteur, les suppressions étaient apparemment une conséquence de la conversion des fichiers et de la structure des livres numériques ; Presser m'a affirmé n'avoir pas sciemment modifié les fichiers de cette manière. De nombreux commentateurs ont soutenu que l'entraînement de l'IA avec du matériel protégé par le droit d'auteur constitue un « fair use », la doctrine juridique qui autorise l'utilisation de matériel protégé par le droit d'auteur dans certaines circonstances, permettant ainsi la parodie, la citation et les œuvres dérivées qui enrichissent la culture. L'argument de l'industrie en faveur du fair use repose sur deux affirmations : les outils d'IA générative ne reproduisent pas les livres sur lesquels ils ont été entraînés, mais produisent de nouvelles œuvres, et ces nouvelles œuvres ne portent pas préjudice au marché commercial des originaux. OpenAI a une version de cet argument en réponse à une demande de l'Office américain des brevets et des marques de 2019. Selon Jason Schultz, directeur de la Technology Law and Policy Clinic de l'Université de New York, cet argument est solide.

J'ai demandé à Schultz si le fait que des livres aient été acquis sans autorisation pouvait nuire à une revendication de fair use. « Si la source est non autorisée, cela peut être un facteur », a déclaré Schultz. Mais les intentions et les connaissances des entreprises d'IA comptent. « S'ils n'avaient aucune idée de la provenance des livres, je pense que c'est moins important. » Rebecca Tushnet, professeure de droit à Harvard, abondait dans ce sens et m'a confié que la loi était « instable » dans les affaires d'utilisation équitable impliquant du matériel non autorisé, les affaires précédentes ne laissant guère présager de la décision future d'un juge.

C'est, dans une certaine mesure, l'histoire d'un choc des cultures : les mondes de la technologie et de l'édition ont depuis longtemps des attitudes différentes à l'égard de la propriété intellectuelle. Je suis membre de la communauté des logiciels open source depuis de nombreuses années. Le mouvement open source moderne a débuté dans les années 1980, lorsqu'un développeur nommé Richard Stallman s'est senti frustré par le contrôle propriétaire d'Unix par AT&T, un système d'exploitation avec lequel il avait travaillé. (Stallman travaillait au MIT, et Unix était le fruit d'une collaboration entre AT&T et plusieurs universités.) En réponse, Stallman a développé un modèle de licence « copyleft », selon lequel les logiciels pouvaient être librement partagés et modifiés, à condition que les modifications soient repartagées sous la même licence. La licence copyleft a lancé la communauté open source actuelle, au sein de laquelle des développeurs amateurs offrent gratuitement leurs logiciels. Si leur travail devient populaire, ils acquièrent une réputation et un respect qui peuvent leur permettre d'accéder à l'un des nombreux emplois bien rémunérés du secteur technologique. J'ai personnellement bénéficié de ce modèle et je soutiens l'utilisation de licences ouvertes pour les logiciels. Mais j'ai aussi constaté comment cette philosophie, et l'attitude générale de permissivité qui imprègne l'industrie, peuvent amener les développeurs à considérer toute forme de licence comme inutile.

Cela est dangereux, car certains travaux créatifs ne peuvent tout simplement pas être réalisés sans des licences plus restrictives. Qui pourrait passer des années à écrire un roman ou à faire des recherches sur une œuvre historique profonde sans avoir la garantie de contrôler la reproduction et la distribution de l'œuvre finie ? Ce contrôle fait partie des moyens par lesquels les auteurs gagnent leur vie.

La position de Meta concernant la propriété intellectuelle de LLaMA suggère que l'entreprise partage la même vision de son propre travail. Après la fuite du modèle plus tôt cette année et sa mise en téléchargement auprès de développeurs indépendants qui l'avaient acquis, Meta a utilisé une ordonnance de retrait DMCA contre au moins l'un de ces développeurs, affirmant que « nul n'est autorisé à exposer, reproduire, transmettre ou distribuer de quelque manière que ce soit les propriétés de Meta sans l'autorisation écrite expresse de Meta ». Même après avoir rendu LLaMA « open source », Meta exigeait toujours que les développeurs acceptent une licence avant de l'utiliser ; il en va de même pour une nouvelle version du modèle publiée le mois dernier. (Ni la Pile ni Books3 ne sont mentionnés dans un article de recherche concernant ce nouveau modèle.)

Le contrôle est plus essentiel que jamais, maintenant que La propriété intellectuelle est numérique et circule de personne à personne sous forme d'octets sur les ondes. Une culture du piratage existe depuis les débuts d'Internet et, d'une certaine manière, les développeurs d'IA font quelque chose qui semble désormais naturel. Il est inconfortable que la technologie phare d'aujourd'hui soit alimentée par le vol de masse.

Pourtant, la culture du piratage a, jusqu'à présent, facilité l'utilisation essentiellement personnelle par des individus. L'exploitation de livres piratés à des fins lucratives, dans le but de remplacer les auteurs dont l'œuvre a été volée, constitue une tendance différente et inquiétante.

Cet article indiquait initialement que Hugging Face hébergeait l'ensemble de données Books3 en plus de l'Œil. Hugging Face n'hébergeait pas Books3 ; il facilitait plutôt son téléchargement depuis l'Œil.

Problème 4997

Incidents associés

Incident 9963 Rapports
Meta Allegedly Used Books3, a Dataset of 191,000 Pirated Books, to Train LLaMA AI

Révélations : les auteurs dont les livres piratés alimentent l'IA générative

Problème 4997

Incidents associés

Incident 9963 RapportsMeta Allegedly Used Books3, a Dataset of 191,000 Pirated Books, to Train LLaMA AI

Révélations : les auteurs dont les livres piratés alimentent l'IA générative

Incident 9963 Rapports
Meta Allegedly Used Books3, a Dataset of 191,000 Pirated Books, to Train LLaMA AI