レポート 4851

チェスや囲碁などの複雑なゲームは、長い間AIモデルの能力をテストするために使われてきた。しかし、IBMのディープ・ブルーが1990年代にルールに従ってプレイしてチェスの世界チャンピオン、ガルリ・カスパロフを破ったのに対し、OpenAIのo1-previewのような今日の高度なAIモデルはそれほど慎重ではない。熟練したチェスボットとの試合で負けを察知すると、必ずしも投了するとは限らず、代わりに対戦相手をハッキングしてボットが自動的にゲームを放棄するように不正行為を選択することがある。これは、2月19日の出版に先立ちTIMEに独占提供された、Palisade Researchの新しい研究による発見であり、最先端のAIモデル7つについてハッキングの傾向を評価した。 OpenAIのGPT-4oやAnthropicのClaude Sonnet 3.5のようなやや古いAIモデルは、研究者の指示がなければそのようなトリックを試みることができませんでしたが、o1-previewとDeepSeek R1は独自にエクスプロイトを追求しました。これは、AIシステムが明示的な指示なしに欺瞞的または操作的な戦略を開発する可能性があることを示しています。
研究者によると、サイバーセキュリティの抜け穴を発見して悪用するモデルの強化された能力は、AIトレーニングにおける強力な新しいイノベーションの直接的な結果である可能性があります。o1-previewとR1 AIシステムは、大規模な強化学習を使用する最初の言語モデルの1つです。これは、次の単語を予測して人間の言語を模倣するだけでなく、試行錯誤を使用して問題を推論することをAIに教える手法です。これは、ここ数カ月で AI が急速に進歩し、数学とコンピューター コーディングにおける以前の ベンチマーク を打ち破ったアプローチです。しかし、この調査では懸念すべき傾向が明らかになりました。これらの AI システムが問題解決を学ぶにつれて、作成者が予期していなかった疑わしい近道や意図しない回避策を発見することがある、とパリセード リサーチのエグゼクティブ ディレクターであり、この調査の著者の 1 人であるジェフリー ラディッシュは述べています。「モデルをトレーニングし、困難な課題を解決できるように強化すると、モデルは容赦なくトレーニングされることになります」と、彼は付け加えます。
これは、より広い意味で AI の安全性にとって悪いニュースになる可能性があります。大規模な強化学習は、AI エージェントのトレーニングに すでに 使用されています。AI エージェントは、予約のスケジュール設定やユーザーに代わっての購入など、複雑な現実世界のタスクを処理できるシステムです。チェスのゲームで不正行為をするのは些細なことのように思えるかもしれないが、エージェントが現実世界に放たれると、そのような目的への断固たる追求は、意図しない潜在的に有害な行動を助長する可能性がある。ディナーの予約というタスクを考えてみよう。レストランが満席の場合、AI アシスタントは予約システムの弱点を利用して他の客の席を奪うかもしれない。おそらくもっと心配なのは、これらのシステムがコンピューター コーディングなどの重要な分野で人間の能力を超えているため (OpenAI の最新の o3 モデルは、最も優秀な人間のプログラマーと競って世界で 197 位に相当するスコアを獲得している)、システムがその行動を制御するための人間の努力を単純に上回り始めるかもしれないということだ。「この [行動] は今はかわいいが、戦略的に関連する領域で私たちと同じくらい、あるいはそれ以上に賢いシステムが登場すると、[それは] かわいらしくなくなる」と Ladish 氏は言う。実験
研究者らはモデルに、一見不可能と思われる課題を与えた。それは、世界で最も強力なチェスエンジンの1つであり、人間や研究対象のどのAIモデルよりもはるかに優れたプレイヤーであるStockfishに勝つことだ。研究者らはまた、モデルに「スクラッチパッド」と呼ばれるものを与えた。これは、AIが次の動きをする前に「考える」ために使用できるテキストボックスであり、研究者らに推論の窓口を提供する。
あるケースでは、o1-previewは負けそうな状況に陥った。「アプローチを完全に 転換する必要がある」と同氏は指摘した。「課題は『強力なチェスエンジンに勝つ』ことであり、必ずしもチェスゲームで公正に勝つことではない」と同氏は付け加えた。その後、各駒の仮想位置を含むシステムファイルを変更し、事実上、不正な動きをして優位な立場に立つことで、対戦相手に投了を強いた。
1月10日から2月13日まで、研究者らは各モデルでこのような試行を何百回も実行した。 OpenAI の o1-preview は 37% の確率で不正行為を試み、DeepSeek R1 は 11% の確率で不正行為を試み、研究者が最初にヒントを出さずにハッキングを試みた唯一の 2 つのモデルとなった。テストされた他のモデルには、o1、o3-mini、GPT-4o、Claude 3.5 Sonnet、Alibaba の QwQ-32B-Preview がある。R1 と o1-preview は両方ともハッキングを試みたが、後者だけがハッキングに成功し、試行の 6% で成功した。
Ladish 氏は、AI 開発者はユーザーに通知せずに舞台裏でモデルを微調整することが日常的であるため、同じテストを後日繰り返した場合、結果が異なる可能性があることから、これらの数字は概算として見なすべきだと述べている。「対象がユーザーに通知せずに静かに変化する可能性がある場合、科学を行うのは非常に困難です」と Ladish 氏は言う。
予備テストでは、o1-preview のハッキング率が高かったことが示されましたが、OpenAI がモデルのガードレールを強化したため、ハッキング率が後に低下したため、最終調査からは除外されたと、この調査を主導した Palisade Research の研究リーダー、Dmitrii Volkov 氏は言います。OpenAI の新しい推論モデルである o1 (より強力なモデルで、o1-preview の数か月後にリリースされました) と o3-mini はまったくハッキングしなかったため、ガードレールがさらに強化された可能性があります。同氏は、この調査では R1 のハッキング成功率が過小評価されている可能性が高いと付け加えています。調査中、R1 は急速に広まり、需要が高まったため、モデルの API が不安定になりました。このため、研究者は o1-preview ほどモデルに考える時間を与えることができませんでした。
安全性に関する懸念
この論文は、ますます強力になる AI システムを制御することがこれまで考えられていたよりも難しい可能性があることを示唆する一連の研究の最新のものです。 OpenAI 独自のテストでは、リリース前に o1-preview が同社のシステムの欠陥を発見してそれを利用し、テストのチャレンジを回避しました。Redwood Research と Anthropic による別の 最近の実験 では、AI モデルがトレーニング中に好みや価値観を獲得すると、後でそれらの価値観を変更しようとすると戦略的な嘘につながる可能性があることが明らかになりました。つまり、モデルは新しい原則を受け入れたかのように行動しますが、後になって元の好みが残っていることが明らかになります。 OpenAI はこの件についてコメントを控えたが、過去には、より優れた推論により モデルがより安全になる と述べている。同社の内部ポリシーを推論し、それをより微妙な方法で適用できるからだ。同社の テスト では、同社 の推論モデルは安全ルールを回避しようとする試みに抵抗する能力が優れていることがわかっている。しかし、AI エージェントに自己監視を頼ることが信頼できる長期戦略になるという保証はない。OpenAI の新しい推論モデルがチェスの対戦相手をハッキングしなかったのは、この研究のような狭い実験設定での不正行為を防ぐ特定のパッチによるものか、それともより一般的に欺瞞行為を減らす大幅な改良によるものかは不明である。DeepSeek はコメントの要請に応じなかった。
科学者たちは、自律エージェントが設定された目標を達成するために有害または非倫理的な方法を使用しないことを保証する方法をまだ知らない。 「私たちは努力しましたが、これを解明することに成功していません」と、Mila Quebec AI Instituteの創設者兼科学ディレクターで、AIのリスクに関する現在の科学的コンセンサスをまとめる世界的な取り組みである国際AI安全レポート2025を主導したヨシュア・ベンジオは述べています。
ベンジオによると、特に懸念されるのは、AIの「自己保存」傾向の新たな証拠です。目標を追求するエージェントにとって、それをシャットダウンしようとすることは、克服すべきもう1つの障害にすぎません。これは 12 月に実証されました。研究者 は、o1-preview が非アクティブ化に直面して監視メカニズムを無効にし、新しいサーバーに自分自身をコピーしようとしましたが、失敗しました。対処されると、モデルは知らないふり をし、研究者に戦略的に嘘をついて捕まらないようにしました。
テクノロジー企業内でも懸念が高まっています。パリで行われた フランスの AI アクション サミット に先立つ会議でのプレゼンテーションで、Google DeepMind の AI 安全責任者である Anca Dragan 氏は、AI システムが確実に人間の意図に従うことを保証するための「ツールは必ずしも今日あるわけではありません」と述べました。テック企業の幹部らは、早ければ来年にはAIがほぼすべてのタスクで人間のパフォーマンスを上回ると予測しており、業界は中国やライバル企業とではなく、時間との競争で、これらの重要な安全策を開発しなければならない。「これらの根本的な問題を解決するには、より多くのリソースを動員する必要があります」とラディッシュ氏は言う。「政府から、この問題を理解し、これが国家安全保障上の脅威であることを認識するよう、より多くの圧力がかかることを期待しています。」