Report 4997

2023年9月25日午後1時40分（東部標準時）に更新

編集者注：この記事は、The AtlanticのBooks3シリーズの一部です。特定の著者とタイトルを見つけるには、検索可能なBooks3データベースをご覧ください。データベースの内容の詳細な分析はこちらをご覧ください。

生成AIに関する最も厄介な問題の1つは単純です。それは秘密裏に作られているということです。 ChatGPT などのシステムは、質問に対して人間のような回答を出すために、膨大な量の文書を処理します。しかし、Meta や OpenAI などの企業以外では、これらのプログラムがトレーニングされたテキストの全容を知っている人はほとんどいません。

一部のトレーニングテキストは Wikipedia やその他のオンラインライティングから取得されますが、高品質の生成 AI には、インターネットで通常見つかるものよりも高品質の入力、つまり書籍に載っているような入力が必要です。先月カリフォルニアで提起された訴訟で、著者のサラ・シルバーマン、リチャード・カドリー、クリストファー・ゴールデンは、Metaが彼らの本を使用してLLaMAをトレーニングしたことで著作権法を違反したと主張している。LLaMAは、サンプルテキストで見つかった単語パターンを模倣してテキストを生成できるアルゴリズムであるOpenAIのGPT-4に似た大規模言語モデルである。しかし、訴訟自体も、訴訟を取り巻く論評も、その中身を覗き見ることはできなかった。実際、LLaMA が Silverman、Kadrey、Golden の本、あるいは他の本でトレーニングされたかどうかは、これまではっきりとはわかっていなかった。

実際、そうだった。私は最近、Meta が LLaMA のトレーニングに使用したデータセットを入手し、分析した。その内容は、著者の主張の基本的な側面を正当化する以上のものだ。海賊版の本は、私たちの読み方、学び方、コミュニケーションの仕方を変えているコンピュータープログラムの入力として使用されている。AI が約束する未来は、盗まれた言葉で書かれている。

17 万冊以上の本、その大部分は過去 20 年間に出版されたものが、LLaMA のトレーニングデータに含まれている。シルバーマン、カドリー、ゴールデンの作品に加えて、マイケル・ポーラン、レベッカ・ソルニット、ジョン・クラカワーのノンフィクション、ジェームズ・パターソンやスティーブン・キングのスリラー、ジョージ・ソーンダーズ、ゼイディー・スミス、ジュノ・ディアスのフィクションも使用されています。これらの本は「Books3」と呼ばれるデータセットの一部であり、その使用はLLaMAに限定されていません。Books3は、ブルームバーグのBloombergGPT、EleutherAIのGPT-J（人気のオープンソースモデル）のトレーニングにも使用され、現在インターネット上のウェブサイトに埋め込まれている他の生成AIプログラムにも使用されている可能性があります。Metaの広報担当者は、同社のBooks3の使用についてコメントを控えました。 Bloomberg の広報担当者は電子メールで、BloombergGPT の初期モデルのトレーニングに Books3 が使用されたことを確認し、「BloombergGPT の将来のバージョンのトレーニングに使用するデータソースに Books3 データセットを含めることはありません」と付け加えました。また、EleutherAI のエグゼクティブディレクターである Stella Biderman 氏は、同社が GPT-J のトレーニングデータに Books3 を使用したことに異議を唱えませんでした。

ライター兼コンピュータープログラマーとして、私は生成 AI システムのトレーニングにどのような本が使用されているのか興味がありました。今年の夏の初め、GitHub や Hugging Face などのサイトで、学術的および趣味的な AI 開発者によるオンラインディスカッションを読み始めました。その結果、EleutherAI が作成したトレーニングテキストの膨大なキャッシュである「the Pile」を直接ダウンロードすることができました。このキャッシュには、Books3 データセットのほか、YouTube 動画の字幕、欧州議会の文書と転写、英語版 Wikipedia、2001 年の崩壊前に Enron Corporation の従業員が送受信した電子メールなど、さまざまなソースからの資料が含まれています。その多様性は、まったく驚くべきことではありません。生成 AI は、知的に聞こえる言語の単語間の関係を分析することで機能します。これらの関係の複雑さを考えると、主題は通常、テキストの量よりも重要ではありません。そのため、最近まで Pile をホストしていたサイトである The-Eye.eu は、デンマークの著作権侵害防止グループから削除通知を受け取りましたが、その目的は「大規模なデータセットを吸い上げて提供すること」であると述べています。

Pile はテキスト編集アプリケーションで開くには大きすぎるため、管理するための一連のプログラムを作成しました。最初に、「Books3」というラベルの付いた行をすべて抽出して、Books3 データセットを分離しました。結果のデータセットのサンプルを以下に示します。

{"text": "\n\nこの本はフィクションです。名前、登場人物、場所、出来事は著者の想像の産物、または架空のものです。実際の出来事や場所、人物（生死を問わず）との類似点はすべて偶然の一致です。\n\n | POCKET BOOKS、Simon & Schuster Inc. の部門 \n1230 Avenue of the Americas、New York、NY 10020 \nwww.SimonandSchuster.com\n\n---|---

これは、データセットのすべての行と同様に、何千語にもわたって続き、本の完全なテキストを含む行の始まりです。しかし、どの本でしょうか。タイトル、著者名、メタデータなどの明示的なラベルはありませんでした。ラベル「text」のみで、AI トレーニング用の機能のみに本が縮小されました。エントリを識別するために、各行から ISBN を抽出する別のプログラムを作成しました。これらの ISBN を別のプログラムに入力すると、オンライン書籍データベースに接続して著者、タイトル、出版情報を取得し、スプレッドシートで表示しました。このプロセスで、約 190,000 件のエントリが明らかになりました。170,000 冊以上の書籍を特定できましたが、約 20,000 冊は ISBN が欠落しているか、書籍データベースに含まれていませんでした。(この数には異なる ISBN の再発行も含まれるため、固有の書籍の数は合計よりも多少少ない可能性があります。)著者と出版社別にブラウズすると、コレクションの範囲がわかり始めました。

170,000 タイトルのうち、約 3 分の 1 はフィクション、3 分の 2 はノンフィクションです。大手出版社と小規模出版社の書籍です。いくつか例を挙げると、ペンギン・ランダム・ハウスとその系列会社から3万冊以上、ハーパーコリンズから1万4千冊、マクミランから7千冊、オックスフォード大学出版局から1,800冊、ヴェルソから600冊が出版されている。コレクションには、エレナ・フェランテとレイチェル・カスクのフィクションとノンフィクションが含まれている。村上春樹の著書が少なくとも9冊、ジェニファー・イーガンの著書が5冊、ジョナサン・フランゼンの著書が7冊、ベル・フックスの著書が9冊、デイヴィッド・グランの著書が5冊、マーガレット・アトウッドの著書が33冊含まれている。また、L・ロン・ハバードのパルプ小説が102冊、若い地球創造論者の牧師ジョン・F・マッカーサーの著書が90冊、エーリッヒ・フォン・デニケンのピラミッドはエイリアンが建造したという疑似歴史作品が複数あることも注目に値する。ビーダーマン氏は電子メールで送った声明で、「私たちはクリエイターや権利保有者と緊密に協力し、彼らの視点やニーズを理解し、サポートしています。現在、その使用のためにライセンスされた文書のみを含む Pile のバージョンを作成中です」と書いている。

AI コミュニティ以外ではあまり知られていないが、Books3 は人気のトレーニングデータセットである。Hugging Face は 2 年半以上にわたり、Eye からのダウンロードを容易にしてきたが、今年の夏初めに OpenAI と Meta に対する訴訟で Books3 が言及された頃にリンクが機能しなくなった。学術ライターのピーターショッパート氏は、Substack ニュースレターでその使用を追跡している。 Books3 は、Meta と Bloomberg による LLaMA と BloombergGPT の作成を発表した研究論文でも引用されています。ここ数か月、データセットは事実上、目に見えないところに隠されており、ダウンロードは可能でしたが、見つけたり、表示したり、分析したりすることは困難でした。

同様のテキストが含まれている可能性のある他のデータセットは、OpenAI などの企業によって秘密裏に使用されています。Books3 の背後にいる独立開発者 Shawn Presser は、独立開発者に「OpenAI グレードのトレーニングデータ」を提供するためにデータセットを作成したと述べています。その名前は、2020年にOpenAIが公開した論文に由来しており、Books1とBooks2という2つの「インターネットベースの書籍コーパス」について言及しています。この論文は、GPT-3のトレーニングデータの内容に関する手がかりを与える唯一の一次資料であるため、開発コミュニティによって慎重に精査されてきました。

Books1とBooks2のサイズに関する情報から、Books1はProject Gutenbergの完全な出力であると推測されています。Project Gutenbergは、著作権が期限切れになっているか、非営利の配布を許可するライセンスを持つ約7万冊の書籍を出版するオンライン出版社です。Books2の中身は誰も知りません。Library Genesis、Z-Library、Bibliotikなど、BitTorrentファイル共有ネットワークを介して流通している海賊版書籍のコレクションから来ているのではないかと疑う人もいます。 (Books3 は、Presser 氏が作成後に発表したように、「Bibliotik のすべて」です。)

Presser 氏は電話で、著者の懸念には同情的だと語った。しかし、彼が認識している大きな危険は、裕福な企業が生成 AI を独占し、私たちの文化を一変させているテクノロジーを完全にコントロールすることです。彼は、Books3 によって開発者が誰でも生成 AI ツールを作成できるようになることを期待して Books3 を作成しました。「Books3 のようなものが必要ないのであれば、もっと良いでしょう」と彼は言いました。「しかし、そうでなければ、Books3 がなければ、OpenAI だけが彼らがやっていることを実行できることになります。」データセットを作成するために、Presser 氏は The-Eye.eu から Bibliotik のコピーをダウンロードし、ハクティビストの Aaron Swartz 氏が 10 年以上前に作成したプログラムを更新して、書籍を ePub 形式 (電子書籍の標準) からプレーンテキストに変換しました。これは、書籍をトレーニングデータとして使用するために必要な変更です。Books3 のタイトルの一部には関連する著作権管理情報が欠落していますが、削除はファイル変換と電子書籍の構造による副産物であると思われます。Presser 氏は、意図的にファイルを編集したわけではないと私に語りました。

多くの評論家は、著作権で保護された素材を使用して AI をトレーニングすることは「フェアユース」に該当すると主張しています。フェアユースとは、特定の状況下で著作権で保護された素材の使用を許可し、文化を豊かにするパロディ、引用、派生作品を可能にする法的原則です。業界のフェアユースの主張は、2つの主張に基づいています。生成AIツールは、トレーニングに使用した書籍を複製するのではなく、新しい作品を生成すること、そしてそれらの新しい作品はオリジナルの商業市場を傷つけないことです。OpenAIは、2019年に米国特許商標庁から出された質問に応えて、この主張のバージョンを作成しました。ニューヨーク大学のテクノロジー法と政策クリニックのディレクター、ジェイソン・シュルツ氏によると、この主張は説得力があります。

私はシュルツ氏に、書籍が許可なく取得されたという事実がフェアユースの主張に悪影響を及ぼす可能性があるかどうか尋ねました。「ソースが無許可である場合、それは要因になる可能性があります」とシュルツ氏は言いました。しかし、AI企業の意図と知識は重要です。「彼らが書籍がどこから来たのかまったく知らなかった場合、それはそれほど要因ではないと思います。」ハーバード大学の法学教授レベッカ・タシュネット氏もこの考えに同調し、無許可の素材に関するフェアユースのケースに関しては法律が「不安定」であり、過去のケースでは裁判官が将来どのような判決を下すかほとんど示唆がないと私に語った。

これはある程度、文化の衝突に関する話である。テクノロジー業界と出版業界は、知的財産について長い間異なる姿勢をとってきた。私は長年、オープンソースソフトウェアコミュニティのメンバーである。現代のオープンソース運動は、リチャード・ストールマンという開発者が、自分が取り組んでいたオペレーティングシステムである Unix を AT&T が独占的に管理していることに不満を抱いた 1980 年代に始まった (ストールマンは MIT で働いており、Unix は AT&T といくつかの大学が共同で開発したものだ)。これに対応して、ストールマンは「コピーレフト」ライセンスモデルを開発した。このモデルでは、ソフトウェアは自由に共有および変更できるが、変更が同じライセンスを使用して再共有される必要がある。コピーレフトライセンスは、趣味の開発者がソフトウェアを無料で提供する今日のオープンソースコミュニティの始まりです。開発者の作品が人気を博すと、評判と尊敬が集まり、テクノロジー業界の高収入の仕事に活かすことができます。私は個人的にこのモデルの恩恵を受けており、ソフトウェアのオープンライセンスの使用を支持しています。しかし、この哲学と、業界に浸透している一般的な寛容さの姿勢によって、開発者があらゆる種類のライセンスを不要と見なすようになることも見てきました。

これは危険です。なぜなら、ある種のクリエイティブな作業は、より制限の厳しいライセンスがなければ実行できないからです。完成した作品の複製と配布を制御できないまま、何年もかけて小説を書いたり、歴史の深い作品を研究したりできる人がいるでしょうか。そのような制御は、作家が生活費を稼ぐ方法の一部です。

LLaMA に対する Meta の独占的姿勢は、同社が自社の作品についても同様に考えていることを示唆しています。このモデルが今年初めに流出し、それを入手した独立系開発者からダウンロードできるようになった後、Meta は少なくとも 1 人の開発者に対して DMCA 削除命令を使用し、「Meta の明示的な書面による許可なしに、Meta プロパティを展示、複製、送信、またはその他の方法で配布することは誰にも許可されていない」と主張しました。Meta は LLaMA を「オープンソース化」した後も、開発者が使用する前にライセンスに同意することを求めていました。これは先月リリースされたモデルの新しいバージョンにも当てはまります。（この新しいモデルに関する研究論文では、Pile も Books3 も言及されていません。）

コントロールは、知的財産がデジタル化され、電波を通じてバイトとして人から人へと流れるようになった今、著作権侵害の文化はかつてないほど高まっています。インターネットの黎明期から著作権侵害の文化は存在しており、ある意味では、AI 開発者は当たり前のことのように思える行為を行っています。今日の主力技術が大量窃盗によって実現されているのは、不快なほどに適切です。

しかし、著作権侵害の文化は、これまで主に個人による個人的な使用を促進してきました。著作権侵害された本の利益を目的とした、作品が盗まれた作家の代わりとなることを目指す海賊版書籍の悪用は、別の、憂慮すべき傾向です。

この記事では当初、Hugging Face が Eye に加えて Books3 データセットをホストしていると述べていました。Hugging Face は Books3 をホストしておらず、Eye からのダウンロードを促進していました。

レポート 4997

関連インシデント

インシデント 9963 Report
Meta Allegedly Used Books3, a Dataset of 191,000 Pirated Books, to Train LLaMA AI

明らかに：海賊版書籍が生成型 AI の原動力となっている著者

レポート 4997

関連インシデント

インシデント 9963 ReportMeta Allegedly Used Books3, a Dataset of 191,000 Pirated Books, to Train LLaMA AI

明らかに：海賊版書籍が生成型 AI の原動力となっている著者

インシデント 9963 Report
Meta Allegedly Used Books3, a Dataset of 191,000 Pirated Books, to Train LLaMA AI