Report 4077

昨年 7 月、Google はプライバシーポリシーに 8 語の変更を加えました。これは次世代の人工知能を構築するという同社の競争における重要な一歩でした。

数千語に及ぶ文書に埋め込まれた Google は、自社の製品でデータを使用する方法に関する表現を微調整し、公開情報を AI チャットボットやその他のサービスのトレーニングに使用できると付け加えました。

この微妙な変更は Google に限ったことではありません。企業はプライバシー法で保護されているデータで AI モデルのトレーニングを行おうとしており、利用規約を慎重に書き直して「人工知能」、「機械学習」、「生成 AI」などの言葉を含めています。

利用規約の変更の中には、数語程度のものもあります。生成 AI モデルの仕組みや、ユーザーデータへのアクセスの種類を説明するセクションを追加するものもあります。たとえば、Snap は、機密情報を AI と共有しないようユーザーに警告しました。チャットボットはトレーニングに使用されるため、Meta はヨーロッパのユーザーに、Facebook と Instagram の公開投稿がまもなく大規模な言語モデルのトレーニングに使用されることを警告しました。

これらの利用規約は、多くの人が長い間無視してきましたが、現在、作家、イラストレーター、ビジュアルアーティストなどの一部のユーザーによって異議が唱えられており、自分の作品が、自分たちに取って代わる恐れのある製品のトレーニングに使用されていることを懸念しています。

「私たちは、基本的に私たちの作品に基づいてトレーニングされた劣悪なコンテンツによって、すでにあちこちで破壊されていますが、今度は捨てられようとしています」と、YouTube パーソナリティであり、旅行推奨サイトの共同創設者である Sasha Yanshin 氏は述べています。

今月、ヤンシン氏はプライバシーポリシーの変更を理由に Adobe のサブスクリプションをキャンセルしました。同氏は「絵筆を販売する金物店が、その筆で描いた絵を所有することはできないですよね?」と述べました。

生成型 AI をトレーニングするために、テクノロジー企業は 2 つのデータプール (公開データと非公開データ) からデータを抽出できます。公開データは Web 上で誰でも見ることができますが、非公開データには非公開アカウントから送信されたテキストメッセージ、メール、ソーシャルメディアの投稿などが含まれます。

公開データは有限のリソースであり、数年後には多くの企業がそのすべてを AI システムに使用できるようになるでしょう。しかし、メタやグーグルのようなハイテク大手は、公開データの10倍にもなる大量の個人データを保有していると、AI研究機関エポックのアソシエイトディレクター、タマイ・ベシログル氏は述べた。

ベシログル氏は、そのデータはAI競争において「大きなアドバンテージ」になる可能性があると述べた。問題は、それにアクセスすることだ。個人データは、主に連邦および州のプライバシー法の寄せ集めによって保護されており、ユーザーはオンラインで作成したコンテンツに対して何らかのライセンスを付与され、企業は同意なしにそれを自社製品に使用することはできない。

2月、連邦取引委員会は、プライバシーポリシーを変更して過去のデータを遡及的にスクレイピングすることは「不公平または欺瞞的」である可能性があるとハイテク企業に警告した。

AIのトレーニングでは、最終的には友人や家族へのメッセージなど、最も個人的な種類のデータが使用される可能性がある。グーグルの広報担当者は、許可を得た少数のユーザーテストグループが、Googleに個人の電子メールの一部についてAIをトレーニングすることを許可したと述べた。

Google は声明で、プライバシーポリシーの変更は「Bard (現在の Gemini) などの新しいサービスも含まれることを単に明確にしただけです。この言語変更に基づいて、追加の種類のデータでモデルのトレーニングを開始したわけではありません」と付け加えました。

一部の企業は、新しいデータへの渇望とユーザーのプライバシーに関する懸念のバランスを取るのに苦労しています。6 月、Adobe は、多くの顧客が AI スクレイピングに関係していると解釈した自動化に関するフレーズを含めるようにプライバシーポリシーを変更した後、ソーシャルメディアで反発を受けました。

同社は、顧客が誤解しているとして、2 つのブログ投稿で変更について説明しました。6 月 18 日、Adobe は利用規約の一部のセクションの先頭に説明を追加しました。

Adobe の法務顧問兼最高信頼責任者である Dana Rao 氏は声明で、「当社は、顧客のコンテンツで生成 AI をトレーニングしたり、顧客の作品の所有権を取得したり、法的要件を超えて顧客コンテンツへのアクセスを許可したりしたことはありません」と述べました。

今年、Snap は、AI である My AI によって収集されたデータに関するプライバシーポリシーを更新しました。ユーザーが会話できるチャットボット。

Snapの広報担当者は、同社がユーザーのオプトインにより、データを使用してAIをトレーニングする方法について「事前通知」したと述べた。

9月、Xはプライバシーポリシーに機械学習とAIに関する1文を追加した。同社はコメントの要請に応じなかった。

先月、Metaは欧州のFacebookとInstagramのユーザーに対し、公開されている投稿を使用してAIをトレーニングすることを警告した6月26日よりが、反発を招いた。その後、欧州デジタル権利センターが欧州11カ国で同社に対して苦情を申し立てたことを受けて、同社は計画を一時停止した。

プライバシー法がそれほど厳しくない米国では、Metaはそのような警告なしに、公開ソーシャルメディア投稿を使用してAIをトレーニングすることができた。同社は9月に、大規模言語モデルの新しいバージョンは、以前のバージョンではトレーニングされていなかったユーザーデータでトレーニングされたと発表した。

Metaは、ユーザーがメッセージで同社のAIチャットボットにタグを付けない限り、MessengerやWhatsAppなどのアプリで友人や家族の間で送信されたメッセージをAIが読むことはないと述べた。

「公開されている情報を使用して AI モデルをトレーニングするのは業界全体の慣行であり、当社のサービスに限ったことではありません」と Meta の広報担当者は声明で述べた。

多くの企業も、競合する AI をトレーニングするためにコンテンツがスクレイピングされることから自社コンテンツを保護する文言を利用規約に追加している。

ヤンシン氏は、規制当局が彼のような中小企業を AI 企業から保護する措置を迅速に講じてくれることを期待しており、彼の旅行 Web サイトへのトラフィックは AI アグリゲーターとの競争が始まって以来 95% 減少していると述べた。

「人々は、データを盗むことで優れたチャットボットが作られるという理由で、その賛否両論を議論することになるだろう」と同氏は述べた。「3 年、4 年、5 年後にはこのクリエイティブ産業のセグメント全体がなくなるかもしれない。なぜなら、私たちは壊滅するからだ」

テキストがどのように変更されたかの具体的な例については、元のレポートを参照。

レポート 4077

AIトレーニングのために利用規約が変更されたとき