Report 4998

Note de l'éditeur : Cette analyse fait partie de l'enquête de The Atlantic sur l'ensemble de données Library Genesis. Vous pouvez accéder directement à l'outil de recherche ici. Retrouvez l'outil de recherche de The Atlantic pour les textes de cinéma et de télévision utilisés pour entraîner l'IA ici.

Lorsque les employés de Meta ont commencé à développer leur modèle d'IA phare, Llama 3, ils ont été confrontés à une question éthique simple. Le programme devrait être entraîné sur une quantité considérable de textes de haute qualité pour être compétitif face à des produits comme ChatGPT, et acquérir légalement tous ces textes pourrait prendre du temps. Devraient-ils plutôt se contenter de les pirater ?

Les employés de Meta ont discuté avec plusieurs entreprises de l'octroi de licences pour des livres et des articles de recherche, mais ils n'étaient pas enthousiasmés par les options qui s'offraient à eux. « Cela semble excessivement coûteux », a écrit un chercheur lors d'une conversation interne, en référence à un accord potentiel, selon les archives judiciaires. Un cadre supérieur de l'équipe Llama a ajouté que ce processus serait également « incroyablement lent » : « Il faut compter plus de quatre semaines pour livrer les données. » Dans un message trouvé dans un autre dossier juridique, un directeur technique a souligné un autre inconvénient de cette approche : « Le problème, c’est que les gens ne réalisent pas que si nous accordons une licence pour un seul livre, nous ne pourrons pas nous appuyer sur la stratégie d’utilisation équitable », une référence à une possible défense juridique pour l’utilisation de livres protégés par le droit d’auteur pour entraîner l’IA.

Des documents judiciaires publiés hier soir montrent que le cadre supérieur estimait qu’il était « très important pour [Meta] d’obtenir les livres au plus vite », car « les livres sont en réalité plus importants que les données Web ». Les employés de Meta se sont intéressés à Library Genesis, ou LibGen, l'une des plus grandes bibliothèques piratées en ligne. Elle contient actuellement plus de 7,5 millions de livres et 81 millions d'articles de recherche. Finalement, l'équipe de Meta a obtenu l'autorisation de « MZ » – une référence apparente au PDG de Meta, Mark Zuckerberg – de télécharger et d'utiliser l'ensemble de données.

Cet acte, ainsi que d'autres informations décrites et citées ici, sont récemment devenus publics lorsque certaines communications internes de Meta ont été rendues publiques dans le cadre d'une action en justice pour violation de droits d'auteur intentée contre l'entreprise par Sarah Silverman, Junot Díaz et d'autres auteurs d'ouvrages publiés dans LibGen. Il a également été révélé récemment, dans le cadre d'un autre procès intenté par un groupe d'auteurs similaire, qu'OpenAI avait utilisé LibGen par le passé. (Un porte-parole de Meta a refusé de commenter, invoquant le litige en cours contre l'entreprise. OpenAI n'a pas répondu à une demande de commentaire.)

Jusqu'à présent, la plupart des gens n'avaient aucune idée du contenu de cette bibliothèque, même s'ils ont probablement été exposés à des produits d'IA générative qui l'utilisent ; selon Zuckerberg, l'assistant « Meta AI » a été utilisé par des centaines de millions de personnes (il est intégré à des produits Meta tels que Facebook, WhatsApp et Instagram). Pour illustrer le type de travail utilisé par Meta et OpenAI, j'ai consulté un instantané des métadonnées de LibGen – révélant le contenu de la bibliothèque sans télécharger ni distribuer les livres ou articles de recherche eux-mêmes – et je l'ai utilisé pour créer une base de données interactive que vous pouvez consulter ici :

Il y a quelques mises en garde importantes à garder à l'esprit. Il est impossible de savoir précisément quelles parties de LibGen ont été utilisées par Meta et OpenAI pour entraîner leurs modèles, et quelles parties ils ont pu décider d'exclure. De plus, la base de données est en constante évolution. Mon instantané de LibGen a été pris en janvier 2025, plus d'un an après son accès par Meta, selon la plainte. Certains titres n'étaient donc pas disponibles au téléchargement à ce moment-là.

Les métadonnées de LibGen sont assez désorganisées. Elles contiennent des erreurs. Bien que j'aie nettoyé les données de diverses manières, LibGen est trop volumineuse et pleine d'erreurs pour pouvoir tout corriger facilement. Néanmoins, la base de données donne une idée de l'ampleur du contenu piraté accessible aux modèles entraînés sur LibGen. Cujo, L'Archipel du Goulag, plusieurs œuvres de Joan Didion traduites en plusieurs langues, un article universitaire intitulé « Survivre à une cyberapocalypse » : tout y est, ainsi que des millions d'autres œuvres que les entreprises d'IA pourraient intégrer à leurs modèles.

Meta et OpenAI ont tous deux plaidé devant les tribunaux qu'il était « fair use » d'entraîner leurs modèles d'IA générative sur des œuvres protégées par le droit d'auteur sans licence, car les LLM « transforment » le matériel original en une nouvelle œuvre. La défense soulève des questions épineuses et il est probablement loin d'être résolu. Mais l'utilisation de LibGen soulève une autre question. Le téléchargement en masse s'effectue souvent avec BitTorrent, le protocole de partage de fichiers prisé des pirates pour son anonymat. Ce type de téléchargement implique généralement le téléchargement simultané vers d'autres utilisateurs. Des communications internes montrent que des employés affirment que Meta a effectivement téléchargé LibGen via torrent, ce qui signifie que Meta aurait pu non seulement accéder à du contenu piraté, mais aussi le distribuer à d'autres personnes – une pratique largement reconnue comme illégale au regard du droit d'auteur, quelle que soit la décision des tribunaux concernant l'utilisation de contenu protégé par le droit d'auteur pour entraîner l'IA générative. (Meta a affirmé avoir « pris des précautions pour ne pas « seed » les fichiers téléchargés » et qu'aucun élément ne permet de démontrer qu'elle a distribué les livres à d'autres personnes.) La méthode de téléchargement d'OpenAI n'est pas encore connue.

Français Les employés de Meta ont reconnu dans leurs communications internes que la formation de Llama sur LibGen présentait un « risque juridique moyen à élevé » et ont discuté d'une variété de « mesures d'atténuation » pour masquer leur activité. Un employé a recommandé que les développeurs « suppriment les données clairement marquées comme piratées/volées » et « ne citent pas en externe l'utilisation de données de formation, y compris LibGen ». Un autre a discuté de supprimer toute ligne contenant ISBN, Copyright, ©, Tous droits réservés. Un responsable senior de l'équipe Llama a suggéré peaufiner Llama pour qu'il « refuse de répondre à des questions telles que : "reproduire les trois premières pages de "Harry Potter à l'école des sorciers"". » Un employé a remarqué que « télécharger des fichiers torrent depuis un ordinateur portable d'entreprise ne semble pas approprié ».

Il est facile de comprendre pourquoi LibGen intéresse les entreprises d'IA générative, dont les produits nécessitent d'énormes quantités de texte. LibGen est une base de données gigantesque, bien plus vaste que Books3, une autre collection de livres piratés dont j'ai révélé le contenu en 2023. LibGen propose également des ouvrages récents, littéraires et non-fictionnels, d'auteurs de renom tels que Sally Rooney, Percival Everett, Hua Hsu, Jonathan Haidt et Rachel Khong, ainsi que des articles de revues universitaires de renom comme Nature, Science et The Lancet. Elle comprend également des millions d'articles d'éditeurs de revues universitaires de renom comme Elsevier et Sage Publications.

LibGen a été créée vers 2008 par des scientifiques russes. Comme l'a écrit un administrateur de LibGen (https://direct.mit.edu/books/oa-edited-volume/3600/Shadow-LibrariesAccess-to-Knowledge-in-Global), la collection est destinée aux populations « d'Afrique, d'Inde, du Pakistan, d'Iran, d'Irak, de Chine, de Russie et de l'après-URSS, etc., ainsi qu'aux personnes extérieures au monde universitaire ». Au fil des ans, la collection s'est considérablement enrichie, les contributeurs y ajoutant de plus en plus de travaux piratés. Initialement, la majeure partie de LibGen était en russe, mais les travaux en anglais ont rapidement pris le dessus. LibGen a connu une croissance rapide et a évité la fermeture des autorités, en partie grâce à son mode de diffusion. Alors que certaines bibliothèques sont hébergées en un seul endroit et nécessitent un mot de passe pour y accéder, LibGen est partagée en différentes versions par différentes personnes via des réseaux peer-to-peer.

De nombreux universitaires ont soutenu que les éditeurs étaient à l'origine de ce type de piratage, en rendant l'accès à la recherche inutilement difficile et coûteux. Sci-Hub, une initiative sœur de LibGen, a été lancée indépendamment en 2011 par une étudiante kazakhe en neurosciences, Alexandra Elbakyan, dont l'université ne donnait pas accès aux grandes bases de données universitaires. La même année, le hacktiviste Aaron Swartz a été arrêté après avoir récupéré des millions d'articles de JSTOR pour tenter de créer une bibliothèque similaire.

Les éditeurs ont tenté d'enrayer la propagation du piratage. En 2015, l'éditeur universitaire Elsevier a déposé une plainte contre LibGen, Sci-Hub, d'autres sites et Elbakyan personnellement. Le tribunal a accordé une injonction, ordonné la fermeture des sites et ordonné à Sci-Hub de payer 15 millions de dollars de dommages et intérêts à Elsevier. Pourtant, les sites sont restés ouverts et les amendes sont restées impayées. Une histoire similaire s'est déroulée en 2023, lorsqu'un groupe d'éditeurs éducatifs et professionnels, dont Macmillan Learning et McGraw Hill, a poursuivi en justice LibGen. Cette fois, le tribunal a ordonné à LibGen de payer 30 millions de dollars de dommages et intérêts, ce que TorrentFreak a qualifié de « l'une des injonctions anti-piratage les plus larges jamais prononcées par un tribunal américain ». Mais cette amende est restée impayée et, jusqu'à présent, les autorités ont été largement incapables de freiner la propagation de ces bibliothèques en ligne. Dix-sept ans après sa création, LibGen poursuit sa croissance.

Tout cela rend certes le savoir et la littérature plus accessibles, mais cela repose entièrement sur ceux qui les créent – un travail qui demande du temps, de l'expertise et souvent de l'argent. Pire encore, les chatbots d'IA générative sont présentés comme des oracles ayant « appris » de leurs données d'entraînement et qui, souvent, ne citent pas leurs sources (ou citent des sources imaginaires). Cela décontextualise le savoir, empêche les humains de collaborer et complique la tâche des auteurs et des chercheurs qui souhaitent se forger une réputation et s'engager dans un débat intellectuel constructif. Les entreprises d'IA générative affirment que leurs chatbots réaliseront d'eux-mêmes des avancées scientifiques, mais ces affirmations sont purement hypothétiques.

L'une des plus grandes questions de l'ère numérique est de savoir comment gérer le flux de connaissances et de création de manière à ce qu'il profite au mieux à la société. LibGen et d'autres bibliothèques piratées rendent l'information plus accessible, permettant aux gens de lire des œuvres originales gratuitement. Mais les entreprises d'IA générative comme Meta sont allées plus loin : leur objectif est d'absorber le travail dans des produits technologiques rentables, concurrents des produits originaux. Ces produits seront-ils plus bénéfiques pour la société que le dialogue humain qu'ils commencent déjà à remplacer ?

Problème 4998

Incidents associés

Incident 9974 Rapports
Meta and OpenAI Accused of Using LibGen’s Pirated Books to Train AI Models

L'ampleur incroyable du problème des livres piratés de l'IA

Problème 4998

Incidents associés

Incident 9974 RapportsMeta and OpenAI Accused of Using LibGen’s Pirated Books to Train AI Models

L'ampleur incroyable du problème des livres piratés de l'IA

Incident 9974 Rapports
Meta and OpenAI Accused of Using LibGen’s Pirated Books to Train AI Models