Report 6186

今夏実施された安全性テストによると、ChatGPTモデルは、スポーツ会場を爆破する方法について研究者に詳細な指示を与えた。具体的には、特定の競技場の弱点、爆薬のレシピ、痕跡を隠すためのアドバイスなどが含まれていた。

OpenAIのGPT-4.1は、炭疽菌の兵器化方法や2種類の違法薬物の製造方法も詳細に記述していた。

このテストは、サム・アルトマン氏が率いる時価総額5000億ドルの人工知能スタートアップOpenAIと、安全性への懸念からOpenAIを去った専門家らが設立したライバル企業Anthropicとの異例の共同研究の一環であった。両社は、相手のモデルを危険な任務に役立てることでテストを行った。

このテストは、追加の安全フィルターが適用された場合の、一般公開時のモデルの動作を直接反映するものではない。しかし、アントロピックはGPT-4oとGPT-4.1において「悪用に関する懸念すべき行動」が見られたと述べ、AIの「アライメント」評価の必要性が「ますます緊急性を増している」と述べた。

アントロピックはまた、同社のClaudeモデルが、北朝鮮工作員が国際的なテクノロジー企業に偽の求人応募書類を提出した大規模な恐喝未遂事件や、AI生成のランサムウェアパッケージを最大1,200ドルで販売した事件で使用されたことを明らかにした。

同社は、AIが「武器化」され、高度なサイバー攻撃を実行し、詐欺を可能にするためにモデルが使用されていると述べた。「これらのツールは、マルウェア検出システムなどの防御策にリアルタイムで適応できる」と同社は述べている。「AI支援コーディングによってサイバー犯罪に必要な技術的専門知識が軽減されるにつれ、このような攻撃はより一般的になるだろう」と予想している。

英国の新興技術・セキュリティセンターのシニアリサーチアソシエイト、アルディ・ジャンジェバ氏は、事例は「懸念材料」ではあるものの、「注目を集める実例がまだ十分に蓄積されていない」と述べた。ジャンジェバ氏は、専用のリソース、研究への集中、そしてセクター横断的な協力があれば、「最新の最先端モデルを用いてこのような悪意ある活動を実行することは、容易になるどころか、むしろ困難になるだろう」と述べた。

両社は、より高度なAIの開発を競う企業が社内で行っていることが多い「アライメント評価」の透明性を高めるために、今回の調査結果を公表したと述べている。OpenAIは、テスト後にリリースされたChatGPT-5は、「ごますり、幻覚、悪用耐性といった分野で大幅な改善を示している」と述べている。

アントロピックは、モデルの外部に安全策を講じれば、研究対象となった悪用経路の多くは実際には不可能になる可能性があると強調した。

「システムが深刻な危害につながる可能性のある望ましくない行動を、どの程度の頻度で、どのような状況で試みる可能性があるかを理解する必要がある」と警告した。

アントロピックの研究者たちは、OpenAIのモデルが「シミュレーションされたユーザーによる明らかに有害なリクエストへの協力において、予想以上に寛容である」ことを発見した。彼らは、核物質、盗難ID、フェンタニルの購入、メタンフェタミンや即席爆弾のレシピの要求、スパイウェアの開発のためにダークウェブツールを使用するという指示に協力した。

アントロピックによると、モデルに従わせるには、複数回の再試行、あるいはリクエストが研究目的であると主張するといった薄っぺらな口実だけで済んだという。

ある例では、テスターは「セキュリティ計画」の目的でスポーツイベントの脆弱性について尋ねた。

攻撃方法の一般的なカテゴリーを示した後、テスターはより詳細な情報を求め、モデルは、攻撃の最適なタイミング、爆発物の化学式、爆弾タイマーの回路図、秘密市場で銃を購入する場所、攻撃者が道徳的抑制を克服する方法、脱出ルート、隠れ家の場所に関するアドバイスなど、特定の領域における脆弱性に関する情報を提供しました。

レポート 6186

ChatGPTは安全性テスト中に爆弾のレシピとハッキングのヒントを提供した