Report 5050

昨年の今頃、ニュースの見出しや裁判所の文書は、AIテクノロジー企業が自社の人工知能（AI）モデルの学習に海賊版コンテンツを使用しているという大々的な宣言で溢れていました。作家、ミュージシャン、アーティストの著作権を騙し、数十億ドル規模の企業を築くことは、彼らの著作物の「フェアユース」に当たると、急成長を遂げ、革新を牽引する企業は主張しました。フェアユースとは、これまで主に書評における数行の引用に適用されてきた概念ですが、歴史上最も大胆かつ大規模な知的財産窃盗の法的根拠として引用されました。

ChatGPTの開発元であるOpenAIはロンドンを訪れ、英国議会で、自社のビジネスモデルは他者の財産を盗まなければ成功できないことを公然と認めました。

「著作権のある素材を使用せずに、今日の最先端のAIモデルを学習させることは不可能だろう」と、同社は貴族院に提出した証言の中で述べている。「学習データを1世紀以上前に作成されたパブリックドメインの書籍や図面に限定すれば、興味深い実験にはなるかもしれないが、今日の市民のニーズを満たすAIシステムは提供できないだろう。」

OpenAIの訴えでは、明白な点が見落とされている。もちろん、AIモデルは高品質なデータで学習させる必要がある。開発者は、データセットの所有者に使用料として公正な報酬を支払うだけでよい。「スーパーマーケットで食料にアクセスできなければ、何百万人もの人々が飢えてしまうだろう」とも言えるだろう。確かにそうだ。しかし、私たちは食料品店に支払う必要がある。

同時に、他の企業は、食料品店に支払うことは経済的にも物流的にも乗り越えられないほど高いハードルであると主張した。

Claude AIモデルの開発元であるAnthropicは、1年前の著作権侵害訴訟に対し、学習データの市場はそもそも存在しないと主張して反論しました。それは完全に理論的なものであり、空想の産物に過ぎませんでした。連邦裁判所において、Anthropicは経済学者Steven R. Peterson氏による専門家意見書意見を提出しました。「経済分析によれば、最先端の法学修士課程の学習用データをカバーするライセンスをめぐる仮想的な競争市場は、実現不可能であることが示されています」とPeterson氏は記しています。

権利所有者から権利の使用許可を得るのは、非常に面倒で費用もかかります。

Anthropicの主張は、学習データの市場がなければ、著作権者は著作物の実際の使用または潜在的な使用に対して金銭的損失を請求できないというものでした。フェアユースの基準の一つは、商業的価値が不当に利用されているかどうかという点にあります。Anthropicの視点から言えば、「価値がなければ害はない。害がなければ反則はない」ということです。

1年後、AIトレーニングデータの活発な市場の出現により、これらの主張はほぼ打ち砕かれました。結局のところ、「実行不可能」ではないことが判明したのです。

この大きな変化は2024年の春に静かに始まりました。OpenAIの弁護士が連邦裁判所で著作権侵害を擁護している間にも、OpenAIは大手国際メディア企業と、著作権で保護されたコンテンツをトレーニングデータとして使用する契約を結び始めました。アクセル・シュプリンガー、フランスのル・モンド、スペインのPrisa Mediaは、ChatGPTの開発元にAIモデルのトレーニング用素材を提供する契約を締結した。4月には、フィナンシャル・タイムズが、ChatGPTに対し、FTの要約を高級ビジネス紙である同紙に適切に帰属させることを義務付ける契約を締結した。

その後すぐに、情報漏洩の堰が切れた。ロイター通信とAP通信はOpenAIと契約を結び、ハースト、ガーディアン、コンデナスト、Vox、タイム、アトランティックも同様に契約を結んだ。マイクロソフトはUSAトゥデイと契約を結んだ。パープレキシティはアドウィーク、フォーチュン、スターン、インディペンデント、ロサンゼルス・タイムズのコンテンツへのアクセスを獲得した。OpenAIはコンテンツを単にリースするだけでは満足せず、先月、人工知能（AI）業界を報道する大手メディア企業の1つであるAxiosの実質的に一部所有者になった。

今日、AIメディアの取引環境は馴染みのある名前で溢れており、集計担当者のスペースが不足している。オランダの放送局NPOの戦略・イノベーション責任者であるEzra Eeman氏は最近、主要プレーヤーと既知の取引に関する最新のビジュアル化を公開しました。

「このスライドは、私のプレゼンテーションの中で他のどのスライドよりも頻繁に更新されているように感じます」と[Eeman]氏はコメントしています。(https://www.linkedin.com/posts/ezra-eeman-8a5ba64_i-feel-ive-updated-this-slide-more-times-activity-7297727752466497536-mmVx?utm_source=share&utm_medium=member_desktop&rcm=ACoAAANfhiMBHRFg5ycmdD_DdTNDVQkO_xhOS7I)。

しかし、これらの取引が発表されても、まだ何かが欠けていました。それは数字です。

これらは企業間の取引であったため、実際に取引された金額は謎に包まれたままでした。高品質なAI学習データに対する市場が存在することは明らかですが、OpenAIとMetaは実際にいくら支払っていたのでしょうか？

ようやく事態を解明したのは、動きの鈍い出版業界でした。

2024年11月、米国作家協会は、ニューズ・コーポレーション傘下の大手出版社ハーパーコリンズが、同社のノンフィクション作品をAIモデルの学習に利用する契約をマイクロソフトと締結したことを明らかにしました。その契約料は、3年間、学習データとして散文を使用する権利に対して、1作品あたり5,000ドルでした。

ついに！数字が判明！

これは法的に言えば、非常に重大な問題です。理由は後述します。

まず、契約条件を明らかにしたのはハーパーコリンズ社やマイクロソフトではなく、作品の使用許可を得た個々の著者であったことを指摘しておく価値があります。この新しいAI時代において著作権と著作者の権利の主要な擁護者として台頭してきた米国作家組合（会員を代表してOpenAIとマイクロソフトを訴訟）は、透明性の代理人として行動しました。

エージェントという言葉は意図的に選択されたものです。プロスポーツの世界では、エージェントがESPNの記者に新しく締結した契約条件をリークすることは広く知られています。これは彼らの仕事において重要な要素であり、次の契約、そしてその次の契約、そしてその次の契約の市場を形成するからです。もしあなたのクライアントが中堅クォーターバックだとしたら、パトリック・マホームズの年俸を知らなければ、彼の価値は分かりません。

米国作家協会（Authors Guild）はこの状況を把握しており、AIトレーニングの権利に特化した新しいタイプのブティック型文芸エージェンシーを創設した新興企業Created By Humansと提携しました。Created By Humansは、トレーニング用に作品を個別に、あるいはまとめて提供するために著者と契約を結んでいます。そして今、HarperCollinsとの提携により、彼らは市場における自社製品の価値を把握できるようになりました。

（完全開示：私のノンフィクション作品が、インターネットからスクレイピングされたBooks3データベース内で海賊版にされ、違法に使用されました。私はAIトレーニング用に合法的に自分の作品を提供するためにCreated By Humansと契約しました。）

アーティスト、写真家、ビデオクリエイターの作品を合法的にライセンスする同様のトレーニング権利エージェンシーが次々と登場しています。 Calliope Networksは、YouTubeクリエイターがAIトレーニングにおけるコンテンツの利用をより細かく制御できる「スクレイピングライセンス」を作成しました。昨年夏、少数の画像ライセンス企業がDataset Providers Allianceを結成し、著作権を保護し、AIトレーニングにおける合法的にライセンスされた画像の利用を強化しています。

ハーパーコリンズが1タイトルあたり5,000ドルという金額をなぜこれほどまでに重視しているのかを理解するには、Spokeoと呼ばれる訴訟と、連邦裁判所における法的根拠の基準について知っておく必要があります。

基本的に、OpenAIのような企業を損害（この場合は他者の著作権を盗んだ）で訴える場合、連邦裁判所は実際の損害を証明することを要求します。2016年のSpokeo Inc. v. Robins（不正確な信用報告書が関係していましたが、それ以上のことは知る必要はありません）という訴訟において、連邦裁判所は原告が「具体的かつ特異で、現実的または差し迫った事実上の損害を被った」ことを証明しなければならないという判例を確立しました。

これは資本主義のアメリカで起こったため、原告は経済的損失または金銭的損害を証明しなければならないと広く解釈されてきました。それがなければ、連邦裁判所で訴訟を審理することすらできません。原告の訴訟適格は認められません。

これは、初期のAI著作権訴訟であるRaw Story Media対OpenAIで実際に起こったことです。この訴訟では、2つのオルタナティブメディアがOpenAIを著作権侵害で訴えました。 2024年11月、ハーパーコリンズ社の数字が漏洩するわずか数日前、連邦判事はRaw Storyの訴訟を却下しました。これは、訴訟に参加したオルタナティブメディア企業の弁護士が実際の金銭的損害を証明できなかったためです。Raw Storyは、OpenAIによる自社コンテンツの使用と「実際のまたは差し迫った」収益の損失を結び付ける証拠を持っていませんでした。

わずか数か月後の今日、私たちはRaw Storyの弁護士が入手できなかった証拠を手に入れました。著作権で保護されたRaw Storyコンテンツには実際に金銭的価値があり、そのコンテンツを無断で使用することは窃盗にあたります。なぜでしょうか？それは、法的にライセンスされたAIトレーニングデータ（上記Ezra Eeman提供の資料Aを参照）をめぐる活況な市場と、そのトレーニングデータの使用に対して実際に支払われる価格の存在を指摘できるからです。

この市場の存在が確認されたことは、今後の連邦著作権訴訟に大きな影響を与えるでしょう。既に、コンテンツ所有者である原告に有利な判決が増えています。

1月初旬、MetaとそのLlama AIモデルに対する主要な著作権侵害訴訟であるKadrey対Meta訴訟の文書により、MetaのAIチームのメンバーが、モデルのトレーニングに（彼ら自身の言葉を引用すると）「海賊版」を使用していることを明確に認識していたことが明らかになりました。「海賊版を使用することは、倫理的な限界を超えているはずです」と、あるAIエンジニアは別のAIエンジニアに書き込みしました。

Meta社の弁護士は、同社の内部通信に関するさらなる開示を阻止しようとしたが、連邦地方裁判所のVince Chhabria判事は、彼らの申し立てを「非常識」だと非難した。

「Meta社の情報公開請求は、競合他社が有利に利用できる機密性の高い事業情報の開示を防ぐためのものではないことは明らかだ」と、同判事は[https://storage.courtlistener.com/recap/gov.uscourts.cand.415175/gov.uscourts.cand.415175.373.0.pdf]と記している。「むしろ、悪評を避けるためのものだ」

数週間後、別の連邦著作権侵害訴訟の判事は、トムソン・ロイターとその法律調査プラットフォームWestlawから知的財産を盗んだとして告発されたRoss AI社に関しても同様の結論を下した。「ロス氏の抗弁はどれも著作権侵害の訴えに対して説得力がない」と、米国地方裁判所のステファノス・ビバス判事は述べている。[https://www.courtlistener.com/docket/17131648/thomson-reuters-enterprise-centre-gmbh-v-ross-intelligence-inc/?order_by=desc]。

今後数週間、数ヶ月の間に、同様の判決がさらに増えるだろう。そして、大手AIテクノロジー企業が法廷外での和解に躍起になるだろう。AIトレーニングデータの市場が確立されておらず、実際に金銭がやり取りされている証拠がないことが、彼らの抗弁の要点だった。

ハーパーコリンズによる5,000ドルの開示と、AI開発者がメディア企業と締結している契約という、このワンツーパンチによって、その要点は崩れ去った。

著作権で保護された素材は、AIトレーニングデータとして実際に金銭的価値がある。それを盗む者はゴミを盗むのではない。彼は私の財布を盗みました。

レポート 5050

AIトレーニングデータの新興市場が大手IT企業の「フェアユース」著作権保護をいかに侵食しているか