Incidents associés

Meta vient de perdre un combat majeur dans sa bataille juridique en cours contre un groupe d'auteurs qui l'attaquait pour violation de droits d'auteur concernant la façon dont elle entraînait ses modèles d'intelligence artificielle. Contre la volonté de l'entreprise, un tribunal a rendu publiques des informations non censurées alléguant que Meta avait utilisé Library Genesis (LibGen), une célèbre bibliothèque fantôme de livres piratés originaire de Russie, pour l'aider à former ses modèles de langage d'IA générative.
L'affaire Kadrey et al. c. Meta Platforms a été l'une des premières poursuites pour atteinte aux droits d'auteur intentées contre une entreprise technologique concernant ses pratiques d'entraînement de l'IA. Son issue, ainsi que celle de dizaines d'affaires similaires en cours devant les tribunaux américains, déterminera si les entreprises technologiques peuvent légalement utiliser des œuvres créatives pour former l'IA à l'avenir. Elle pourrait soit conforter les acteurs les plus puissants de l'IA, soit les faire dérailler.
Vince Chhabria, juge au tribunal de district des États-Unis pour le district nord de la Californie, a ordonné mercredi à Meta et aux plaignants de déposer l'intégralité d'un lot de documents, après avoir qualifié d'« absurde » la méthode de Meta pour les expurger, ajoutant que, pour l'essentiel, « il n'y a rien dans ces mémoires qui mérite d'être scellé ». Chhabria a statué que Meta ne cherchait pas à ce que les documents soient expurgés afin de protéger ses intérêts commerciaux, mais plutôt pour « éviter une publicité négative ». Les documents, initialement déposés à la fin de l'année dernière, étaient jusqu'à présent inaccessibles au public dans leur version intégrale.
Dans son ordonnance, Chhabria a fait référence à une citation interne d'un employé de Meta, incluse dans les documents, dans laquelle il affirmait : « Si une couverture médiatique suggère que nous avons utilisé un ensemble de données que nous savons être piraté, comme LibGen, cela pourrait compromettre notre position de négociation avec les régulateurs sur ces questions. » Meta a refusé de commenter.
Les romanciers Richard Kadrey et Christopher Golden, ainsi que l'humoriste Sarah Silverman, ont initialement intenté une action collective contre Meta en juillet 2023, accusant le géant technologique d'avoir formé ses modèles linguistiques en utilisant leurs œuvres protégées par le droit d'auteur sans autorisation. Meta a fait valoir que l'utilisation de ressources accessibles au public pour entraîner des outils d'IA est protégée par la doctrine de l'« usage équitable », qui stipule que l'utilisation d'œuvres protégées par le droit d'auteur sans autorisation est légale dans certains cas, notamment, selon l'entreprise, « l'utilisation de texte pour modéliser statistiquement le langage et générer une expression originale », ont écrit les avocats de l'entreprise dans une requête visant à rejeter la plainte des auteurs en novembre 2023. Dans cette affaire, Meta a également soutenu que les demandes des plaignants étaient sans fondement. Avant la publication de ces documents, Meta avait révélé dans un article de recherche avoir entraîné son modèle de langage Llama sur des portions de Books3, un ensemble de données d'environ 196 000 livres récupérés sur Internet. L'entreprise n'avait toutefois pas encore publiquement indiqué avoir téléchargé des données directement depuis LibGen.
Ces documents, récemment non expurgés, révèlent des échanges entre employés de Meta, mis au jour lors de la procédure de découverte, comme un ingénieur de Meta expliquant à un collègue qu'il hésitait à accéder aux données de LibGen car « télécharger des données depuis un ordinateur portable d'entreprise appartenant à Meta » ne lui semblait pas approprié 😃. Ils allèguent également que des discussions internes concernant l'utilisation des données de LibGen ont été transmises au PDG de Meta, Mark Zuckerberg (désigné par « MZ » dans la note remise lors de la communication préalable) et que l'équipe d'IA de Meta a été « autorisée à utiliser » les données piratées.
« Meta a traité la prétendue “mise à disposition publique” des ensembles de données fantômes comme une carte de sortie de prison, alors même que les archives internes de Meta montrent que tous les décideurs concernés chez Meta, jusqu'à son PDG, Mark Zuckerberg, savaient que LibGen était “un ensemble de données que nous savons être piraté” », allèguent les plaignants dans cette requête. (Initialement déposée fin 2024, la requête vise à déposer une troisième plainte modifiée.)
Outre les mémoires des plaignants, un autre document, non expurgé, a été déposé en réponse à l'ordonnance de Chhabria : l'opposition de Meta à la requête de dépôt de plainte modifiée. Meta soutient que les tentatives des auteurs d'ajouter des allégations supplémentaires à l'affaire constituent une manœuvre de dernière minute fondée sur une prémisse fausse et incendiaire et nie que Meta ait attendu pour révéler des informations cruciales lors de la communication préalable. Meta affirme avoir révélé aux plaignants avoir utilisé un ensemble de données LibGen pour la première fois en juillet 2024. (Une grande partie des documents de la communication préalable restant confidentiels, WIRED a du mal à confirmer cette affirmation.)
L'argument de Meta repose sur l'affirmation selon laquelle les plaignants étaient déjà au courant de l'utilisation de LibGen et ne devraient pas bénéficier d'un délai supplémentaire pour déposer une troisième plainte modifiée, alors qu'ils en avaient largement le temps avant la fin de la communication préalable en décembre 2024. « Les plaignants étaient au courant du téléchargement et de l'utilisation par Meta de LibGen et d'autres prétendues "bibliothèques fantômes" depuis au moins la mi-juillet 2024 », affirment les avocats du géant technologique [https://storage.courtlistener.com/recap/gov.uscourts.cand.415175/gov.uscourts.cand.415175.378.0.pdf].
En novembre 2023, Chhabria a fait droit à la requête de Meta visant à rejeter certaines des demandes, notamment celle selon laquelle l'utilisation présumée par Meta des œuvres des auteurs pour entraîner l'IA violait le Digital Millennium Copyright Act, une loi américaine introduite en 1998 pour empêcher la vente ou la reproduction d'œuvres protégées par le droit d'auteur sur Internet. À l'époque, le juge avait convenu la position de Meta selon laquelle les plaignants n'avaient pas fourni suffisamment de preuves pour démontrer que l'entreprise avait supprimé ce que l'on appelle les « informations de gestion du droit d'auteur », comme le nom de l'auteur et le titre de l'œuvre.
Les documents non expurgés soutiennent que les plaignants devraient être autorisés à modifier leur plainte, alléguant que les informations révélées par Meta prouvent que la réclamation DMCA était justifiée. Ils affirment également que la procédure de communication préalable a révélé des raisons d'ajouter de nouvelles allégations. « Meta, par l'intermédiaire d'un représentant de l'entreprise qui a témoigné le 20 novembre 2024, a maintenant reconnu sous serment avoir téléchargé (ou « seeding ») des fichiers piratés contenant les œuvres des plaignants sur des sites de torrents », allègue la requête. (Le « seeding » consiste à partager des fichiers torrent avec d'autres utilisateurs après leur téléchargement.)
« Cette activité de torrenting a transformé Meta en distributeur du même matériel piraté protégé par le droit d'auteur qu'elle téléchargeait également pour l'utiliser dans ses modèles d'IA disponibles sur le marché », affirme l'un des documents non expurgés, alléguant que Meta, en d'autres termes, avait non seulement utilisé du matériel protégé par le droit d'auteur sans autorisation, mais l'avait également diffusé.
LibGen, une archive de livres téléchargés sur Internet, créée en Russie vers 2008, est l'une des « bibliothèques fantômes » les plus importantes et les plus controversées au monde. En 2015, un juge new-yorkais a ordonné une injonction préliminaire contre le site, une mesure théoriquement destinée à fermer temporairement l'archive, mais ses administrateurs anonymes ont simplement changé de domaine. En septembre 2024, un autre juge new-yorkais a ordonné à LibGen de verser 30 millions de dollars aux ayants droit pour violation de leurs droits d'auteur, sans que l'on sache qui exploite réellement cette plateforme de piratage. Les difficultés de Meta concernant la communication des preuves dans cette affaire ne sont pas terminées. Dans la même ordonnance, Chhabria a mis en garde le géant technologique contre toute demande de suppression trop large à l'avenir : « Si Meta soumet à nouveau une demande de mise sous scellés déraisonnablement large, tous les documents seront simplement descellés », a-t-il écrit.