Report 4999

Metaは、人工知能モデルのトレーニング方法をめぐって著作権侵害で同社を訴えている著者グループとの進行中の法廷闘争で大きな敗戦を喫したばかりだ。同社の意に反して、裁判所は、Metaがロシア発祥の悪名高い海賊版書籍の影の図書館であるLibrary Genesis (LibGen)を、生成型AI言語モデルのトレーニングに利用していたとする情報を非公開にした。

この訴訟、_Kadrey et al. v. Meta Platforms_は、AIトレーニング方法をめぐってテクノロジー企業に対して起こされた最も初期の著作権訴訟の1つである。この判決の結果は、米国の裁判所で審理中の数十件の類似訴訟の結果とともに、テクノロジー企業が今後 AI を訓練するために創作物を合法的に使用できるかどうかを決定するものであり、AI の最も強力なプレーヤーを定着させるか、あるいは脱線させる可能性がある。

北カリフォルニア地区連邦地方裁判所のヴィンス・チャブリア判事は、水曜日、メタと原告の両方に、文書の編集に対するメタのアプローチを「ばかげている」と述べ、一連の文書の完全版を提出するよう命令し、大部分において「これらの弁論要旨には封印されるべきものは一つもない」と付け加えた。チャブリア判事は、メタが資料の編集を求めていたのは事業上の利益を守るためではなく、「悪評を避けるため」だったと判断した。昨年末に提出された文書は、現在まで編集されていない状態で公開されていなかった。

チャブリア判事は、命令の中で、文書に含まれていたメタの従業員による内部の引用に言及し、「LibGenなど、海賊版であることがわかっているデータセットを使用したとメディアが報道した場合、これらの問題に関する規制当局との交渉上の立場が損なわれる可能性がある」と推測した。メタはコメントを控えた。

小説家のリチャード・カドリー氏とクリストファー・ゴールデン氏、そしてコメディアンのサラ・シルバーマン氏は、2023年7月にメタに対して集団訴訟を起こし、このテクノロジー大手が彼らの著作物を許可なく使用して言語モデルをトレーニングしたと主張した。 Metaは、AIツールのトレーニングに公開されている資料を使用することは「フェアユース」の原則によって保護されていると主張している。フェアユースの原則では、著作権で保護された作品を許可なく使用することは特定のケースでは合法であるとされており、その1つは「テキストを使用して言語を統計的にモデル化し、独自の表現を生成すること」であると同社は主張している、と同社の弁護士は2023年11月に著者の訴訟を却下する動議に記した。この特定の訴訟では、Metaは原告の主張には根拠がないとも主張している。

これらの文書が公開される前、Meta は以前、インターネットから収集した約 196,000 冊の書籍のデータセットである Books3 の一部を使用して Llama 大規模言語モデルをトレーニングしたことを研究論文で明らかにしていました。ただし、LibGen から直接データをトレントしたことをこれまで公に示唆していませんでした。

これらの新たに編集されていない文書は、発見プロセスで発覚した Meta 従業員間のやり取りを明らかにしています。たとえば、Meta のエンジニアが同僚に、「[Meta 所有の] 会社のラップトップからトレントするのは気が引ける 😃」という理由で LibGen データにアクセスするのをためらっていると話しているなどです。また、原告らは、LibGen データの使用に関する社内協議が Meta の CEO マーク・ザッカーバーグ氏 (証拠開示の際に提出されたメモでは「MZ」と記載) にエスカレートされ、Meta の AI チームが海賊版素材を「使用することを承認」されたと主張している。

「Meta の内部記録によると、CEO マーク・ザッカーバーグ氏を含む Meta の関連意思決定者全員が、LibGen が「海賊版であることがわかっているデータセット」であることを知っていたにもかかわらず、Meta はいわゆる「シャドーデータセットの公開」を免罪符として扱っていた」と原告らは申し立てている。（当初は2024年後半に提出されたこの申し立ては、3回目の修正訴状を提出するよう求めるものです。）

原告の弁論要旨に加えて、チャブリア判事の命令に応じて、修正されていない別の申し立てが提出されました。修正訴状を提出するよう求める申し立てに対するMetaの反対意見です。この申し立てでは、著者らが訴訟に追加の主張を加えようとする試みは「虚偽で扇動的な前提に基づく土壇場の策略」であり、Metaが証拠開示で重要な情報を明らかにするのを待ったことを否定しています。代わりに、Meta は、LibGen データセットを使用したことを原告に初めて明らかにしたのは 2024 年 7 月だと主張している (証拠開示資料の多くは機密情報であるため、WIRED がその主張を確認することは困難である)。

Meta の主張は、原告が LibGen の使用についてすでに知っていたため、証拠開示が 2024 年 12 月に終了する前に十分な時間があったのに、3 回目の修正請求を提出するための追加時間を与えられるべきではないという主張にかかっている。「原告は、少なくとも 2024 年 7 月中旬以降、Meta による LibGen およびその他の疑わしい「シャドーライブラリ」のダウンロードと使用を知っていた」と、このテクノロジー大手の弁護士は主張している (https://storage.courtlistener.com/recap/gov.uscourts.cand.415175/gov.uscourts.cand.415175.378.0.pdf)。

2023年11月、チャブリア判事は、メタが著者の著作物をAIの訓練に使用したとされる行為がデジタルミレニアム著作権法に違反しているという主張を含む、訴訟の一部の申し立てを却下するメタの申し立てを認めた。デジタルミレニアム著作権法は、インターネット上で著作物を販売または複製することを禁じるために1998年に導入された米国の法律である。当時、判事は、原告がメタが著者名や作品のタイトルなどの「著作権管理情報」と呼ばれるものを削除したことを証明する十分な証拠を提示していないというメタの立場に同意した。

修正されていない文書は、原告が訴状を修正することを認められるべきだと主張し、メタが明らかにした情報はDMCAの申し立てが正当であった証拠であると主張している。また、証拠開示手続きで新たな申し立てを追加する理由が明らかになったとも述べている。「メタは、2024年11月20日に証言した企業代表者を通じて、原告の作品を含む海賊版ファイルを「トレント」サイトにアップロード（いわゆる「シーディング」）したことを宣誓の下で認めた」と動議は主張している。（シーディングとは、トレントされたファイルがダウンロード完了後に他のピアと共有されることである。）

「このトレント活動により、メタ自体が、市販のAIモデルで使用するためにダウンロードしていたのと同じ海賊版著作権素材の配布者になった」と新たに修正されていない文書の1つは主張しており、言い換えれば、メタは著作権素材を許可なく使用しただけでなく、それを配布していたと主張している。

LibGenは、2008年頃にロシアで始まり、インターネットにアップロードされた書籍のアーカイブであり、世界最大かつ最も物議を醸している「影の図書館」の1つです。2015年にニューヨークの判事がこのサイトに対して仮差し止め命令を命じました。理論的にはアーカイブを一時的に閉鎖することを目的とした措置でしたが、匿名の管理者が単にドメインを変更しただけでした。 2024年9月、ニューヨークの別の判事は、実際に海賊版ハブを運営しているのは誰かわからないにもかかわらず、LibGenに対し、著作権を侵害したとして権利者に3000万ドルを支払うよう命令した。

この事件におけるMetaの証拠開示の苦境もまだ終わっていない。同じ命令で、チャブリア判事は、このテクノロジー大手に対し、今後過度に広範な編集要求を行わないよう警告した。「Metaが再び不当に広範な封印要求を提出した場合、すべての資料が封印解除されるだけだ」と同判事は記している。

レポート 4999

関連インシデント

インシデント 9974 Report
Meta and OpenAI Accused of Using LibGen’s Pirated Books to Train AI Models

メタは悪名高い著作権侵害データベースで AI を秘密裏にトレーニングしていた、新たに編集されていない裁判文書で明らかに

レポート 4999

関連インシデント

インシデント 9974 ReportMeta and OpenAI Accused of Using LibGen’s Pirated Books to Train AI Models

メタは悪名高い著作権侵害データベースで AI を秘密裏にトレーニングしていた、新たに編集されていない裁判文書で明らかに

インシデント 9974 Report
Meta and OpenAI Accused of Using LibGen’s Pirated Books to Train AI Models