先月、コンピュータプログラマー向けの注目ツールのテクニカルサポートを担当するAIボットが、複数の顧客に対し、会社のポリシー変更について警告しました。Cursorを複数のコンピュータで使用できなくなったという内容でした。
インターネット掲示板には、怒りの投稿が寄せられ、顧客からの苦情が殺到しました。中にはCursorアカウントを解約した人もいました。さらに、AIボットが実際には存在しないポリシー変更を発表したという事実に気づき、怒りを募らせた人もいました。
「そのようなポリシーはありません。もちろん、Cursorを複数のマシンでご利用いただくことは可能です」と、同社のCEO兼共同創業者であるマイケル・トゥルーエル氏はRedditへの投稿で述べている。[https://old.reddit.com/r/cursor/comments/1jyy5am/psa_cursor_now_restricts_logins_to_a_single/]。「残念ながら、これは最前線のAIサポートボットからの誤った回答です。」
ChatGPTの登場から2年以上が経過し、テクノロジー企業、オフィスワーカー、そして一般消費者は、ますます多様なタスクにAIボットを活用しています。しかし、これらのシステムが正確な情報を生成することを保証する方法はまだありません。(https://www.nytimes.com/2023/05/01/business/ai-chatbots-hallucination.html)
OpenAI、Google、中国のスタートアップ企業DeepSeekといった企業が開発した、最新かつ最も強力な技術、いわゆる「推論システム」は、誤りを減らすどころか、むしろ増やしています。数学的スキルが著しく向上するにつれて、事実の把握はより不安定になっています。その理由は完全には解明されていません。
今日のAIボットは複雑な数学システムに基づいており、膨大な量のデジタルデータを分析することでスキルを学習します。ボットは何が真実で何が虚偽かを判断することはできず、またそうでもありません。時には、ボットは事実を捏造することもあり、一部のAI研究者はこれを幻覚と呼んでいます。あるテストでは、最新のAIシステムの幻覚率は79%にも達しました。
これらのシステムは、人間のエンジニアが定義した厳格なルールではなく、数学的確率を用いて最適な応答を推測します。そのため、一定数の間違いを犯します。「私たちが最善を尽くしても、ボットは常に幻覚を起こします」と、企業向けAIツールを開発するスタートアップ企業VectaraのCEOで、元Google幹部のアムル・アワダラー氏は述べています。「この状態は今後もなくなることはないでしょう。」
この現象は長年にわたり、これらのシステムの信頼性に対する懸念を引き起こしてきました。これらは、学期末レポートの作成、オフィス文書の要約、コンピューターコードの生成など、いくつかの状況では役立ちますが、その誤りが問題を引き起こす可能性があります。
GoogleやBingなどの検索エンジンに連携するAIボットは、時に笑ってしまうほど間違った検索結果を生成することがあります。西海岸でおすすめのマラソン大会を尋ねると、フィラデルフィアのレースを提案してくるかもしれません。イリノイ州の世帯数を尋ねると、その情報を含まない情報源を引用してくるかもしれません。
こうした幻覚は多くの人にとって大きな問題ではないかもしれないが、裁判文書、医療情報、あるいは機密性の高いビジネスデータを扱う技術を使用する人にとっては深刻な問題だ。
「どの回答が事実に基づいていて、どれがそうでないかを判断するのに多くの時間を費やすことになる」と、企業が幻覚問題に対処するのを支援する企業Okahuの共同創業者兼CEO、プラティック・ヴァーマ氏は述べた。「こうしたエラーに適切に対処しなければ、本来はタスクを自動化するはずのAIシステムの価値が実質的に失われてしまう」。
カーソル氏とトゥルーエル氏はコメントの要請に応じなかった。
OpenAIやGoogleといった企業は2年以上にわたり、AIシステムを着実に改良し、こうしたエ ラーの頻度を減らしてきた。しかし、新しい推論システムの導入により、エラーは増加している。 OpenAIの最新システムは、同社独自のテストによると、同社の以前のシステムよりも幻覚の発生率が高いことが分かった。
同社によると、最も強力なシステムであるo3は、著名人に関する質問に答えるPersonQAベンチマークテストの実行中に、33%の確率で幻覚を起こした。これは、OpenAIの以前の推論システムであるo1の幻覚率の2倍以上である。新しいo4-miniはさらに高い確率で幻覚を起こし、48%に達した。
より一般的な質問をするSimpleQAという別のテストを実行した際、o3とo4-miniの幻覚率はそれぞれ51%と79%だった。以前のシステムであるo1は、44%の確率で幻覚を起こした。
OpenAIはテストの詳細を記した論文の中で、これらの結果の原因を理解するにはさらなる研究が必要だと述べています。AIシステムは人間が理解できる以上のデータから学習するため、技術者はAIシステムがなぜそのような動作をするのかを解明するのに苦労しています。
「幻覚は推論モデルにおいて本質的に多く見られるわけではありませんが、o3とo4-miniで確認された高い幻覚率を低減するために積極的に取り組んでいます」と、OpenAIの広報担当者であるギャビー・ライラ氏は述べています。「精度と信頼性を向上させるため、すべてのモデルにおける幻覚に関する研究を継続していきます。」
ワシントン大学教授でアレン人工知能研究所の研究員であるハンナネ・ハジシルジ 氏は、最近、システムの動作を学習に使用された個々のデータまで遡る方法を考案したチームの一員です。しかし、システムは膨大なデータから学習し、ほぼあらゆるものを生成できるため、この新しいツールですべてを説明できるわけではありません。「これらのモデルがどのように機能するかはまだ正確にはわかっていません」とハジシルジ氏は述べています。
独立した企業や研究者によるテストでは、GoogleやDeepSeekなどの企業の推論モデルでも幻覚の発生率が上昇していることが示されています。
2023年後半から、アワダラ氏の企業であるVectaraは、チャットボットが真実からどれほど頻繁に逸脱するかを追跡しています。同社はこれらのシステムに、特定のニュース記事を要約するという、簡単に検証できる単純なタスクを実行させます。それでも、チャットボットは執拗に情報を捏造します。
Vectara社の当初の調査では、このような状況においてチャットボットが情報を捏造する割合は少なくとも3%、時には27%に達すると推定されていました。
それから1年半の間に、OpenAIやGoogleといった企業は、この数値を1~2%の範囲にまで引き下げました。サンフランシスコのスタートアップ企業Anthropicなどは、4%前後で推移していました。しかし、このテストにおける幻覚率は推論システムによって上昇しています。DeepSeekの推論システムR1は、14.3%の確率で幻覚を起こしました。OpenAIのo3は6.8%に上昇しました。
(ニューヨーク・タイムズ紙は、OpenAIとそのパートナーであるMicrosoftを、AIシステム関連のニュース コンテンツに関する著作権侵害で提訴しました。OpenAIとMicrosoftはこれらの主張を否定しています。)
長年にわたり、OpenAIのような企業は、AIシステムに入力するインターネットデータが多ければ多いほど、システムのパフォーマンスが向上するというシンプルな概念に頼ってきました。しかし、彼らはインターネット上の英語のテキストをほぼすべて使い果たしてしまったため、チャットボットを改善するための新しい方法が必要になりました。
そこでこれらの企業は、科学者が強化学習と呼ぶ手法にますます重点を置いています。このプロセスにより、システムは試行錯誤を通じて行動を学習できます。数学やコンピュータプログラミングなど、特定の分野ではうまく機能しています。しかし、他の分野では不十分です。
「これらのシステムのトレーニング方法では、システムは1つのタスクに集中し始め、他のタスクを忘れ始めます」と、エディンバラ大学の研究者で、幻覚問題を詳細に調査しているチームの一員であるローラ・ペレス=ベルトラチーニ氏は述べています。
もう一つの問題は、推論モデルが複雑な問題を「考える」ことに時間を費やし、最終的に答えを出すように設計されていることです。問題を段階的に解決しようとすると、各ステップで幻覚に陥るリスクがあります。思考に時間をかけるほど、エラーが積み重なっていく可能性があります。
最新のボットは各ステップをユーザーに公開するため、ユーザーも各エラーに気付く可能性があります。研 究者たちはまた、多くの場合、ボットが表示するステップは最終的に提供する答えとは無関係であることも発見しています。
「システムが考えていると言っていることは、必ずしもシステムが考えていることとは限らない」と、エディンバラ大学のAI研究者でAnthropicフェローでもあるAryo Pradipta Gema氏は述べています。