関連インシデント
最近、元大統領で有罪判決を受けたドナルド・トランプ氏は、ポップスターのテイラー・スウィフトのファンが彼の米国大統領選への出馬を支持していると思われる一連の写真を投稿した。その写真はAIによって生成されたように見え、非営利団体のTrue Mediaの検出ツールにそれらを通し、それらが「操作の実質的な証拠」を示していることを確認して、おそらくそうであると確認できた。
物事はいつもそう簡単ではない。政治目的を含む生成AIの使用はますます一般的になり、WIREDは世界中の選挙でのその使用を追跡してきた。しかし、米国とヨーロッパの一部を除く世界の多くの地域では、システムのトレーニングにおける偏りのために AI 生成コンテンツの検出が難しく、ジャーナリストや研究者は、自分たちに向かってくる偽情報の洪水に対処するためのリソースがほとんどありません。
AI を使用して生成または操作されたメディアの検出は、生成 AI 企業の急増への対応として、依然として急成長中の分野です。(AI スタートアップは、2023 年だけで 210 億ドル を超える投資を集めました。) 「実際に合成メディアを作成できるようにするツールやテクノロジーは、それを実際に検出するために利用できるものよりもはるかに簡単にアクセスできます」と、グローバル サウスの技術政策に焦点を当てたシンクタンク、Tech Global Institute の創設者である Sabhanaz Rashid Diya 氏は述べています。
非営利団体ウィットネスのプログラムディレクター、サム・グレゴリー氏によると、現在市場に出回っているツールのほとんどは、AIで作られたものかどうかを判断する際に85~90パーセントの信頼度しか提供できないという。ウィットネスは、人々がテクノロジーを使って人権を支援するのを支援する団体だ。しかし、バングラデシュやセネガルなど、被写体が白人でなかったり、英語を話していない場所からのコンテンツを扱う場合、信頼度は急落する。「ツールが開発されるにつれて、特定の市場が優先されるようになりました」とグレゴリー氏は言う。モデルのトレーニングに使用されたデータでは、「英語(米国英語)や西洋世界で主流の顔を優先しました」。
つまり、AIモデルは主に西洋市場からのデータと西洋市場向けのデータでトレーニングされているため、これらのパラメーターから外れたものを実際に認識することはできない。場合によっては、企業がインターネット上で最も簡単に入手できるデータを使用してモデルをトレーニングしていたため、英語が圧倒的に優勢な言語である(https://www.isocfoundation.org/2023/05/what-are-the-most-used-languages-on-the-internet/)ためである。「実際、[アフリカ]からの私たちのデータのほとんどは紙媒体です」と、アフリカやその他の南半球のデジタル脅威に焦点を当てた非営利の市民技術組織であるThraetsの創設者であるリチャード・ンガミタ氏は言う。つまり、そのデータがデジタル化されていない限り、AIモデルをトレーニングすることはできない。
AIが生成したコンテンツやAIが操作したコンテンツを正確に検出できるほどAIモデルを十分にトレーニングするために必要な膨大な量のデータがなければ、モデルは多くの場合、実際のコンテンツをAI生成としてフラグ付けする誤検知や、AIが生成したコンテンツを実際のコンテンツとして識別する誤検知を返すことになる。 「AIが生成したテキストを検出するための市販のツールを使用すると、英語を母国語としない人が書いた英語を検出し、英語を母国語としない人が書いた文章をAIが書いたものと見なす傾向があります」とディヤ氏は言う。「特定のデータでトレーニングされていないため、誤検知が多くなります」
しかし、モデルがアクセント、言語、構文、または西洋諸国ではあまり一般的ではない顔を認識できないというだけではない。「初期のディープフェイク検出ツールの多くは、高品質のメディアでトレーニングされていました」とグレゴリー氏は言う。しかし、アフリカを含む世界の多くの地域では、機能を簡素化した安価な中国のスマートフォンブランドが市場を独占している。これらの携帯電話で撮影できる写真や動画は品質がはるかに低く、検出モデルをさらに混乱させているとンガミタ氏は言う。
グレゴリー氏によると、一部のモデルは非常に敏感で、音声の背景ノイズやソーシャルメディア用の動画の圧縮でさえ、誤検出や誤検出につながる可能性がある。「しかし、それはまさに現実世界で遭遇する状況であり、乱暴な検出です」と同氏は言う。ほとんどのジャーナリスト、ファクトチェッカー、市民社会のメンバーがアクセスできる可能性のある無料の一般向けツールも、「トレーニングデータに誰が表されているかという不公平さや、この低品質の素材を扱うという課題の両方に対処するという点で、極めて不正確なものです」。
ジェネレーティブAIは、操作されたメディアを作成する唯一の方法ではありません。いわゆるチープフェイク、つまり誤解を招くラベルを追加したり、音声や動画を遅くしたり編集したりして操作されたメディアも、南半球では非常に一般的ですが、欠陥のあるモデルや訓練を受けていない研究者によって、AI操作と誤ってフラグが付けられることがあります。
Diyaは、米国やヨーロッパ以外のコンテンツをAI生成としてフラグ付けする可能性が高いツールを使用するグループが政策レベルで深刻な影響を及ぼし、立法者が架空の問題を取り締まるよう促す可能性があると懸念しています。「そのような数字を膨らませるという点で、大きなリ スクがあります」と彼女は言います。そして、新しいツールを開発することは、ボタンを押すだけで済むことではありません。
他のすべてのAI形式と同様に、検出モデルの構築、テスト、実行には、世界のほとんどの場所では利用できないエネルギーとデータセンターへのアクセスが必要です。 「ここで AI とローカル ソリューションについて話す場合、コンピューティング サイドがなければ、考え出そうとしているモデルを実行することさえほぼ不可能です」とガーナに拠点を置く Ngamita 氏は言います。ローカルな代替手段がなければ、Ngamita 氏のような研究者には選択肢がほとんど残されていません。Reality Defender が提供するような既製のツールへのアクセスに料金を支払うか (コストが法外になる場合があります)、不正確な無料ツールを使用するか、学術機関を通じてアクセスを試みるしかありません。
Ngamita 氏によると、今のところ、彼のチームは検証のためにコンテンツを送信できるヨーロッパの大学と提携しなければなりませんでした。Ngamita 氏のチームは、大陸全体からディープフェイクの可能性のあるインスタンスのデータセットをまとめており、これはモデルのデータセットを多様化しようとしている学者や研究者にとって価値があると彼は言います。
しかし、データを他の人に送信することには欠点もあります。「遅延時間はかなり大きくなります」と Diya 氏は言います。 「誰かが自信を持ってこれが AI 生成だと言えるようになるまでには、少なくとも数週間かかります。そして、その頃には、そのコンテンツはすでに被害を受けています。」
グレゴリー氏によると、独自 の迅速対応検出プログラムを運営している Witness は、「膨大な数」のケースを受け取っている。「最前線のジャーナリストが必要とする時間枠内で、彼らが直面し始めている量で、それらを処理するのはすでに困難です」と彼は言う。
しかし、ディヤ氏は、検出に重点を置きすぎると、全体としてより回復力のある情報エコシステムを作る組織や機関から資金と支援が逸れてしまう可能性があると言う。代わりに、資金は国民の信頼感を生み出すことができる報道機関や市民社会組織に向けられるべきだと彼女は言う。「資金がそこに使われているとは思いません」と彼女は言う。「資金は検出にもっと使われていると思います。」