関連インシデント
編集者注: この分析は、The Atlantic の Library Genesis データセットの調査の一部です。検索ツールには、こちら から直接アクセスできます。AI のトレーニングに使用された映画やテレビ番組の脚本を検索する The Atlantic の検索ツールは、こちら で見つかります。*
Meta の従業員が主力 AI モデルである Llama 3 の開発を開始したとき、彼らは単純な倫理的問題に直面しました。 ChatGPT などの製品と競争するには、このプログラムを大量の高品質な文章でトレーニングする必要があり、そのすべてのテキストを合法的に取得するには時間がかかる可能性があります。代わりに海 賊版を入手すべきでしょうか?
Meta の従業員は、書籍や研究論文のライセンスについて複数の企業と話をしましたが、選択肢に満足していませんでした。裁判所の記録によると、ある研究科学者は社内チャットで、ある潜在的な取引について「これは不当に高価に思えます」と書きました。Llama チームの上級管理職は、これも「信じられないほど遅い」プロセスになると付け加えました。「データの提供には 4 週間以上かかります。」別の法的提出書類で見つかったメッセージでは、エンジニアリング ディレクターがこのアプローチの別の欠点を指摘しています。「問題は、1 冊の本のみをライセンスすると、フェア ユース戦略に頼ることができなくなることを人々が理解していないことです」と、著作権で保護された本を使用して AI をトレーニングするための法的防御の可能性について言及しています。
昨夜公開された裁判所文書によると、上級管理者は「[Meta] ができるだけ早く本を入手することが非常に重要」だと感じていたようです。「本は実際には Web データよりも重要」だからです。 Meta の従業員は、オンラインで流通している海賊版ライブラリの中で最大規模の 1 つである Library Genesis (LibGen) に注目しました。現在、750 万冊以上の書籍と 8,100 万件の研究論文が収蔵されています。最終的に、Meta のチームは「MZ」(Meta の CEO である Mark Zuckerberg を指していると思われる) からデータセットをダウンロードして使用する 許可 を得ました。
この行為は、ここで概説および引用されている他の情報とともに、Sarah Silverman、Junot Díaz、および LibGen の書籍の他の著者が同社に対して起こした著作権侵害訴訟の一環として Meta の内部通信の一部が開示された際に、最近公文書となりました。また、最近、同様の著者グループが起こした別の訴訟で、OpenAI が過去に LibGen を使用していたことが 明らかに されました。(Meta の広報担当者は、同社に対する訴訟が進行中であることを理由にコメントを控えました。OpenAI はコメントの要請に応じませんでした。)
これまで、ほとんどの人は、このライブラリを使用する生成 AI 製品に触れたことがある可能性は高いものの、このライブラリの内容を知る機会はありませんでした。Zuckerberg によると、「Meta AI」アシスタントは何億人もの人々に使用されています (Facebook、WhatsApp、Instagram などの Meta 製品に組み込まれています)。 Meta と OpenAI がどのような研究を行ってきたかを示すために、私は LibGen のメタデータのスナップショットにアクセスし、書籍や研究論文自体をダウンロードまたは配布することなくライブラリの内容を明らかにし、それを使用して、ここで検索できるインタラクティブなデータベースを作成しました。
留意すべき重要な注意事項がいくつかあります。Meta と OpenAI がモデルのトレーニングに使用した LibGen の部分と、除外することにした可能性のある部分を正確 に知ることは不可能です。また、データベースは常に拡大しています。訴訟によると、私の LibGen のスナップショットは、Meta がアクセスしてから 1 年以上後の 2025 年 1 月に取得されたため、その時点ではここにあるタイトルの一部はダウンロードできなかったはずです。
LibGen のメタデータは非常に乱雑です。全体にエラーがあります。さまざまな方法でデータをクリーンアップしましたが、LibGen は大きすぎてエラーが散らばっているため、すべてを簡単に修正することはできません。それでも、このデータベースは、LibGen でトレーニングされたモデルが利用できる海賊版素材の膨大な規模を示しています。 Cujo、The Gulag Archipelago、ジョーン・ディディオンの複数の言語に翻訳された複数の作品、"Surviving a Cyberapocalypse" という学術論文など、AI 企業がモデルに取り込むことができる他の何百万もの作品とともに、すべてがここにあります。
Meta と OpenAI はどちらも、LLM が元の素材を新しい作品に「変換」するため、ライセンスなしで著作権で保護された作品で生成 AI モデルをトレーニングすることは「公正使用」であると法廷で主張しました。この弁護は 厄介な問題 を提起しており、解決にはほど遠いと思われます。しかし、LibGen の使用は別の問題を引き起こします。一括ダウンロードは、匿名性のために海賊に人気のファイル共有プロトコルである BitTorrent で行われることが多く、BitTorrent でのダウンロードでは通常、他のユーザーへの同時アップロードが伴います。社内コミュニケーション によると、Meta は確かに LibGen をトレントしていたと従業員が語っており、つまり Meta は海賊版にアクセスしただけでなく、それを他者に配布した可能性もあります。著作権で保護された素材を使用して生成 AI をトレーニングすることについて裁判所がどのような判断を下すかに関係なく、著作権法では違法であることが十分に立証されています。(Meta は、[ダウンロードしたファイルを「シード」しないように予防措置を講じた] (https://www.tomshardware.com/tech-industry/artificial-intelligence/meta-defends-using-pirated-material-claims-its-legal-if-you-dont-seed-content) と主張しており、書籍を他者に配布したことを示す「事実はない」としています。) OpenAI のダウンロード方法はまだわかっていません。
Meta の従業員は、社内コミュニケーションで、LibGen で Llama をトレーニングすることは「中程度から高い法的リスク」を伴うことを認め、その活動を隠すためのさまざまな「緩和策」について議論しました。ある従業員は、開発者が「海賊版/盗難として明確にマークされたデータを削除し」、「LibGen を含むトレーニング データの使用を外部に引用しない」ことを 推奨 しました。もう 1 つ 議論 では、ISBN、Copyright、©、All rights reserved を含む行を削除します。 Llama チームのシニア マネージャーは、Llama を微調整して「『ハリー ポッターと賢者の石』の最初の 3 ページを再現する」などのクエリに応答しないようにすることを 提案 しました。ある従業員は コメント、「会社のラップトップからトレントするのは適切ではない」と述べました。
LibGen が、製品に大量のテキストを必要とする生成 AI 企業に魅力的である理由は簡単にわかります。 LibGen は巨大で、2023 年に私が 明らかにした もう一つの海賊版書籍コレクションである Books3 より何倍も大きい。LibGen に含まれるその他の作品には、サリー・ルーニー、パーシバル・エヴェレット、ホア・スー、ジョナサン・ハイト、レイチェル・コンなどの著名な著者による最近の文学作品やノンフィクション、Nature、Science、The Lancet などの一流学術雑誌の記事などがある。エルゼビアやセージ・パブリケーションズなどの一流学術雑誌出版社からの数百万の記事が含まれている。
LibGen は、2008 年頃にロシアの科学者によって作成された。ある LibGen 管理者が 書いた ように、このコレクションは「アフリカ、インド、パキスタン、イラン、イラク、中国、ロシア、旧ソ連などの人々、そして別の話ですが、学術界に属していない人々」のために存在します。長年にわたり、寄稿者が海賊版作品をどんどん追加するにつれて、コレクションは膨れ上がってきました。当初、LibGen のほとんどはロシア語でしたが、すぐに英語の作品がコレクションの大部分を占めるようになりました。LibGen は急速に成長し、その配布方法のおかげで当局による閉鎖を免れました。他のいくつかのライブラリは単一の場所でホストされ、アクセスするにはパスワードが必要ですが、LibGen はピアツーピア ネットワークを介してさまざまな人々によってさまざまなバージョンで共有されています。
学術界の多くの人々は、出版社が研究へのアクセスを不必要に困難かつ高価にすることで、この種の著作権侵害を自ら招いていると主張 主張 しています。LibGen の姉妹サイトである Sci-Hub は、2011 年にカザフスタンの神経科学を専攻する学生 Alexandra Elbakyan によって独立して立ち上げられました。彼女の大学は大規模な学術データベースへのアクセスを提供しませんでした。同じ年に、ハクティビストの Aaron Swartz が、JSTOR から数百万件の記事を盗み出し、同様の種類のライブラリ を構築しようとしたため逮捕されました。
出版社は海賊版の拡散を阻止しようとしてきた。2015年、学術出版社エルゼビアはLibGen、Sci-Hub、その他のサイト、そしてエルバキアン個人に対して告訴した。裁判所は差し止め命令を認め、サイトの閉鎖を命じ、Sci-Hubにエルゼビアに1500万ドルの損害賠償を支払うよう命じた。しかしサイトは存続、罰金は支払われな かった。同様のことが2023年に起こり、マクミラン・ラーニングやマグロウヒルを含む教育・専門出版社のグループがLibGenを相手取って訴訟を起こした。訴訟今回、裁判所はLibGenに3000万ドルの損害賠償金を支払うよう命じた。TorrentFreakはこれを命じた「米国の裁判所が下した最も広範な著作権侵害防止命令の1つ」と評した。しかし、この罰金も支払われず、これまでのところ当局はオンラインでのこれらのライブラリの拡散をほとんど抑制できていない。LibGenは創設から17年を経ても成長を続けている。
これらすべてによって知識や文学へのアクセスは確かに容易になりますが、それはそもそもその知識や文学を創り出す人々に完全に依存しています。その労働には時間、専門知識、そして多くの場合お金がかかります。さらに悪いことに、生成 AI チャットボットは、トレーニング データから「学習」した予言者として提示され、多くの場合、ソースを引用しません (または架空のソースを引用します)。これにより、知識が文脈から外れ、人間が協力できなくなり、作家や研究者が評判を築き、健全な知的議論に参加することが難しくなります。生成 AI 企業は、チャットボットが 自ら 科学的進歩をもたらすと主張していますが、これらの主張は完全に仮説です。
デジタル時代の最大の問題の 1 つは、社会に最も利益をもたらす方法で知識と創造的な作品の流れを管理する方法です。LibGen などの海賊版ライブラリは、情報をよりアクセスしやすくし、人々がオリジナルの作品をお金を払わずに読めるようにしています。しかし、Meta などの生成 AI 企業はさらに一歩進んでいます。彼らの目標は、その成果を、オリジナルと競合する収益性の高いテクノロジー製品に取り込むことです。これらは、すでに置き換えられ始めている人間の対話よりも社会にとって良いものになるのでしょうか?