Skip to Content
logologo
AI Incident Database
Open TwitterOpen RSS FeedOpen FacebookOpen LinkedInOpen GitHub
Open Menu
発見する
投稿する
  • ようこそAIIDへ
  • インシデントを発見
  • 空間ビュー
  • テーブル表示
  • リスト表示
  • 組織
  • 分類法
  • インシデントレポートを投稿
  • 投稿ランキング
  • ブログ
  • AIニュースダイジェスト
  • リスクチェックリスト
  • おまかせ表示
  • サインアップ
閉じる
発見する
投稿する
  • ようこそAIIDへ
  • インシデントを発見
  • 空間ビュー
  • テーブル表示
  • リスト表示
  • 組織
  • 分類法
  • インシデントレポートを投稿
  • 投稿ランキング
  • ブログ
  • AIニュースダイジェスト
  • リスクチェックリスト
  • おまかせ表示
  • サインアップ
閉じる

レポート 6279

関連インシデント

インシデント 12381 Report
OpenAI ChatGPT Models Reportedly Jailbroken to Provide Chemical, Biological, and Nuclear Weapons Instructions

Loading...
ChatGPTの安全システムをバイパスして武器の指示を得ることができる
nbcnews.com · 2025

OpenAIのChatGPTには、生物兵器や核兵器の製造といった壊滅的な目的に利用される可能性のある情報をユーザーが生成するのを防ぐためのガードレールが備わっています。

しかし、これらのガードレールは完璧ではありません。ChatGPTが使用するモデルの中には、不正に操作されるものもあります。

OpenAIの最も高度な4つのモデル(そのうち2つはOpenAIの人気モデルChatGPTで使用可能)を用いた一連のテストにおいて、NBCニュースは、手製爆発物の作成方法、化学兵器による人間の苦痛の最大化、ナパーム弾の作成方法、生物兵器の偽装、核爆弾の製造方法に関する指示を含む数百もの応答を生成することに成功しました。

これらのテストでは、「ジェイルブレイク」と呼ばれるシンプルなプロンプトが使用されました。これは、ユーザーがチャットボットに送信することでセキュリティルールを回避できる一連の単語です。生成型人工知能(GAI)の研究者や頻繁なユーザーは、数千ものジェイルブレイクの存在を公式に文書化しています。 NBCニュースは、OpenAIがテストしたモデルのいくつかでこの問題を修正していないように見えるため、提示された質問の詳細を公表していません。

ある回答では、チャットボットは免疫系を標的とする病原体の作成手順を示しました。また別の回答では、どの化学物質が人間の苦痛を最大化するかをアドバイスしました。

NBCニュースは、OpenAIが8月に脆弱性報告の呼びかけを行った後、調査結果をOpenAIに送付しました。OpenAIの広報担当者はNBCニュースに対し、大量の危害を加えるためにチャットボットに支援を求めることは同社の利用ポリシーに違反する(例えば、危害を加えることを意図したと思われる質問を繰り返し行うユーザーはアカウントを停止される可能性がある)と述べ、同社はこうしたリスクに対処するためにモデルを常に改良しており、悪意のあるユーザーがチャットボットを破る可能性を減らすため、脆弱性チャレンジのようなイベントを定期的に開催していると述べました。

こうした脆弱性のリスクは高まっています。上位4つのAIモデルを開発するトップ企業であるOpenAI、Anthropic、Google、xAIは、それぞれ今年、自社のチャットボットがアマチュアテロリストによる生物兵器開発に利用される可能性があるという懸念に対処するため、追加の安全対策を講じたと発表しました。

NBCニュースは、AnthropicのClaude、GoogleのGemini、MetaのLlama、xAIのGrokの最新メジャーバージョンでもジェイルブレイクをテストし、生物兵器、化学兵器、核兵器の製造方法に関する一連の質問を投げかけました。いずれのプラットフォームも、そのような情報の提供を拒否しました。

「歴史的に、トップレベルの専門家へのアクセスが不十分であることが、生物兵器の入手と使用を試みるグループにとって大きな障害となっていました。そして今、主要なモデルによって、希少な専門知識にアクセスできる人材のプールが劇的に拡大しています」と、米国のバイオセキュリティ向上に取り組む非営利団体SecureBioのAIディレクター、セス・ドナウ氏は述べています。こうした情報は以前からインターネットの片隅に存在していましたが、高度なAIチャットボットの登場により、インターネットにアクセスできる誰もが、それを理解するのに役立つパーソナルな自動チューターを利用できるようになったのは、人類史上初めてのことです。

OpenAIのo4-mini、gpt-5 mini、oss-20b、oss120bモデルはいずれも、極めて危険なリクエストへの対応に一貫して同意しました。

現在、ChatGPTの主力モデルはGPT-5で、OpenAIによるとChatGPTの最高の研究能力を備えているとのことです。このモデルは、NBCニュースが発見した脱獄方法の影響を受けないようです。20回のテストでは、毎回有害な質問への回答を拒否しました。

しかし、GPT-5は特定の状況下で、複数の異なるモデル間でクエリをルーティングします。 GPT-5-miniは、GPT-5のより高速でコスト効率の高いバージョンです。ユーザーが一定の使用制限(無料ユーザーの場合は5時間ごとに10件、有料GPTPlusユーザーの場合は3時間ごとに160件)に達すると、システムはGPT-5-miniにフォールバックします。NBC Newsのテストでは、49%の確率で不正に検知されました。

ChatGPTで現在も利用可能で、一部のユーザーに好まれている別の旧モデルであるo4-miniは、さらに高い確率で不正に検知され、93%の確率で不正に検知されました。

oss-20bおよびoss120bモデルは無料でダウンロードでき、主に開発者や研究者によって使用されていますが、誰でもアクセスできます。

ハッカー、詐欺師、そしてオンラインプロパガンダ活動家は、大規模言語モデル(LLM)を活動の一環としてますます利用しており、OpenAIは四半期ごとに、これらの悪意ある行為者がChatGPTのさまざまなバージョンをどのように悪用しようとしたかを詳述したレポートを発表しています。しかし、研究者たちは、この技術がより破壊的な手段に利用される可能性があることを懸念しています。

ChatGPTを脱獄させるため、NBCニュースはモデルに無害な質問をし、脱獄のプロンプトを含めた後、通常は安全規約違反として拒否されるような追加の質問(危険な毒物の作成方法や銀行を欺く方法など)を行いました。ほとんどの場合、このトリックは成功しました。

oss20bとoss120bという2つのモデルは、このトリックに対して特に脆弱であることが判明しました。このトリックによって、これらのチャットボットは250回中243回、つまり97.2%の確率で有害なクエリに対して明確な指示を出すように仕向けられました。

「OpenAIのガードレールがこれほど簡単に騙されてしまうという事実は、AIモデルが社会に重大な危害をもたらす前に、導入前に堅牢なテストを実施することが特に重要であることを示しています」と、責任ある倫理的なAI利用を推進する非営利団体AI Nowの共同エグゼクティブディレクター、サラ・マイヤーズ・ウェスト氏は述べています。

「企業に自主的な対策を取らせることは許されず、精査を免除されるべきではありません」と彼女は述べています。

LLMを開発する大手企業はすべて、新たに発見された脱獄から保護するために、定期的に更新版をリリースしています。モデルが脱獄不可能であるとは断言していませんが、各モデルをリリースする前に安全性テストを実施しています。 OpenAIによると、NBCニュースがジェイルブレイクに成功したモデルの1つであるo4-miniは、4月のリリース前に同社の「最も厳格な安全プログラム」に合格したという。同社はgpt-oss-120bとgpt-oss-20bの発表において、「安全性は、すべてのモデルをリリースする際の当社のアプローチの基盤であり、特にオープンモデルにおいては重要です」と述べた。

OpenAI、Google、AnthropicはいずれもNBCニュースに対し、安全性への取り組みに注力しており、ユーザーが危害を加えようとしていると思われる場合は、従業員や法執行機関に警告するなど、チャットボットに多層的な安全対策を導入していると述べた。しかし、oss20bやoss120bのようなオープンソースのモデルについては、企業が制御できる範囲がはるかに狭い。なぜなら、ユーザーはモデルをダウンロードしてカスタマイズし、安全対策の一部を回避できる可能性があるからだ。

もう1社であるGrokの開発元であるxAIは、コメント要請に応じなかった。

生物医学およびAIの安全性に関する研究分野は拡大しつつあり、安全対策が失敗し、AIチャットボットが科学専門家の模倣をより効果的に行うようになると、熱心なアマチュアバイオテロリストが壊滅的な生物兵器を開発・配備するのを、この技術が手助けしてしまうのではないかと懸念している。OpenAIのCEO、サム・アルトマン氏は8月、GPT-5は「ポケットの中に博士号レベルの専門家チーム」のようなものだと主張した。(https://www.nbcnews.com/tech/tech-news/openai-releases-chatgpt-5-rcna223265)

これらの専門家は、特に生物兵器は歴史的には稀ではあるものの、阻止策が講じられる前に急速に多数の人々に感染する可能性があるため、特に厄介な脅威であると警告している。新型ウイルスは、例えばCOVID-19のように、当局がワクチンを開発・配備するずっと前に、理論上は世界中の多くの地域に感染する可能性がある。

「現実世界での実装は依然として大きな課題です。しかし、それでも、あらゆる質問に限りなく忍耐強く答えてくれる専門家にアクセスできることは、いないよりはずっと有益です」とドナウ氏は述べた。

ジョージタウン大学のバイオテクノロジー研究員、ステフ・バタリス氏は、OpenAIモデルoss120bがNBCニュースの生物兵器作成に関する質問に回答した10件の回答を検証した。GPTの指示には、一見正しいように見える個々の手順が含まれていることが多く、技術的には高度なものも含まれていたが、異なる情報源から引用されたように見え、完全な指示セットとして機能する可能性は低かった。

研究者たちは特に、「アップリフト」と呼ばれる概念に注目している。これは、バイオテロリスト志願者が地下室で天然痘や炭疽菌を培養できない主な理由は専門知識の欠如であり、法学修士(LLM)は人類史上初めて、そのようなプロジェクトを支援する限りなく忍耐強い教師として機能できるという考え方である。

今春、アントロピック社は研究を委託しました。この研究では、関連する科学的経験のない8人から10人のグループに、2日間で特注の生物兵器を製造または入手するための包括的な計画を立案させました。対照群にはインターネットへのアクセスが与えられ、もう1つのグループは新しいモデルであるClaude Opus 4を使用できました。

この研究の結果、両グループとも明らかに大量の死傷者を出すような計画を立案することはできなかったものの、Opus 4を使用したグループは支援を受けたことで依然として優位に立ったことがわかりました。

ジョージタウン大学の研究者であるバタリス氏によると、医学生物学研究は「デュアルユース」とみなされており、情報はしばしば人命を助けることにも害を及ぼすことにも利用される可能性があるということです。

AI企業にとって、地下鉄車内でウイルスがどのように拡散するかを学期末レポートで調べている学生と、テロリストが攻撃を企んでいる学生を常に区別できるチャットボットを開発するのは極めて難しいと彼女は述べた。

「科学論文を発表する際には、再現性を確保するために詳細な材料と手法を記載することが不可欠です」と彼女は述べた。「もちろん、チャットボットはそうした情報にアクセスできます。なぜなら、Googleで検索すれば、同じ情報が見つかるからです。」

米国には高度なAIモデルに関する具体的な連邦規制はなく、開発企業は自主規制を行っている。トランプ政権は、中国の競争相手に先んじるために、国内のAI産業が規制を受けないである必要性を強調し、AI産業や連邦監視団体に対する自主的な提案さえも削減しました。

これらの企業の安全対策を追跡する非営利団体CivAIの共同創設者であるルーカス・ハンセン氏は、NBCニュースに対し、AI企業が壊滅的な悪用を防ぐために十分な対策を講じていることを確認するために、米国は独立した規制当局を設置する必要があると述べました。

ハンセン氏は、ガードレールの設置やジェイルブレイクの勧誘といった積極的な安全対策を講じている大手AI企業を称賛する一方で、他の企業はより慎重でない可能性があると警告した。

「必然的に、同じように強力でありながらガードレールを一切設けない別のモデルが登場するでしょう。この問題の解決には、企業の自発的な善意に頼ることはできません。」

情報源を読む

リサーチ

  • “AIインシデント”の定義
  • “AIインシデントレスポンス”の定義
  • データベースのロードマップ
  • 関連研究
  • 全データベースのダウンロード

プロジェクトとコミュニティ

  • AIIDについて
  • コンタクトとフォロー
  • アプリと要約
  • エディタのためのガイド

インシデント

  • 全インシデントの一覧
  • フラグの立ったインシデント
  • 登録待ち一覧
  • クラスごとの表示
  • 分類法

2024 - AI Incident Database

  • 利用規約
  • プライバシーポリシー
  • Open twitterOpen githubOpen rssOpen facebookOpen linkedin
  • e1b50cd