レポート 6341
私たちは最近、ChatGPTのデフォルトモデル(新しいウィンドウで開く)を更新し、苦痛の瞬間にある人々をより適切に認識してサポートできるようにしました。本日は、これらの改善をどのように行ったか、そしてそのパフォーマンスについてご紹介します。実際の臨床経験を持つメンタルヘルスの専門家と協力し、モデルが苦痛をより適切に認識し、会話を落ち着かせ、適切な場合に専門家のケアに人々を誘導するように学習させました。また、危機ホットラインへのアクセスを拡大し、他のモデルから発生したデリケートな会話をより安全なモデルに再ルーティング(新しいウィンドウで開く)し、長時間のセッション中に休憩を取るように優しくリマインダーを追加しました。 ChatGPTは、人々が自分の気持ちを処理するための支援的な場を提供し、必要に応じて友人、家族、またはメンタルヘルスの専門家に連絡を取るよう導くことができると信じています。最近のモデル更新における安全性の改善は、次の領域に重点を置いています。1) 精神病や躁病などのメンタルヘルスの問題、2) 自傷行為と自殺、3) AIへの感情的な依存。今後は、自殺と自傷行為に関する長年のベースライン安全性指標に加えて、感情的な依存と自殺を伴わないメンタルヘルスの緊急事態を、将来のモデルリリースの標準ベースライン安全性テストセットに追加します。基本原則 ------------------- これらの更新は、モデル仕様 (新しいウィンドウで開きます) で概説されている、モデルの動作方法に関する既存の原則に基づいています。モデル仕様を更新し、長年の目標のいくつかをより明確にしました。モデルはユーザーの現実世界の関係をサポートおよび尊重し、精神的または感情的な苦痛に関連する可能性のある根拠のない信念を肯定することを避け、妄想や躁病の潜在的な兆候に安全かつ共感的に対応し、潜在的な自傷行為や自殺のリスクの間接的なシグナルに細心の注意を払う必要があります。 ChatGPT での対応を改善する方法 ----------------------------------------- ChatGPT が各優先ドメインで応答する方法を改善するために、5 段階のプロセスに従います。 - 問題の定義 - さまざまな種類の潜在的な危害をマッピングします。 - 測定の開始 - 評価、実際の会話のデータ、ユーザー調査などのツールを使用して、リスクがどこでどのように発生するかを理解します。 - アプローチの検証 - 外部のメンタルヘルスおよび安全の専門家と定義とポリシーを確認します。 - リスクの軽減 - モデルを事後トレーニングし、製品の介入を更新して安全でない結果を減らします。 - 測定と反復を継続 - 緩和策によって安全性が向上したことを検証し、必要に応じて反復します。このプロセスの一環として、センシティブな会話の特性と、理想的なモデルの動作と望ましくないモデルの動作がどのようなものかを説明する詳細なガイド(「タクソノミー」と呼ばれる)を構築および改良しています。これらは、モデルがより適切に応答するように教え、展開前後のパフォーマンスを追跡するのに役立ちます。その結果、精神病、躁病、自殺や自傷の考え、またはモデルへの不健康な感情的愛着の兆候を示すユーザーに対して、より確実に適切に応答するモデルが実現します。 低有病率イベントの測定 ------------------------------- メンタルヘルスの症状と精神的苦痛は人間社会に普遍的に存在しており、ユーザーベースの増加は、ChatGPT の会話の一部にこれらの状況が含まれることを意味します。ただし、精神病、躁病、自殺念慮など、安全上の懸念を引き起こすメンタルヘルスに関する会話は非常にまれです。非常にまれであるため、測定方法のわずかな違いでも、報告される数値に大きな影響を与える可能性があります。 1 以下に示す現在の本番環境トラフィックにおける普及率の推定値は、現時点での最良の推定値です。分類法の改良、測定方法の成熟、ユーザー層の行動の変化に伴い、これらの推定値は大幅に変更される可能性があります。関連する会話の普及率が非常に低いため、実世界のChatGPT使用状況の測定のみに依存することはありません。また、展開前に、特に困難なシナリオやリスクの高いシナリオに焦点を当てた構造化テスト(「オフライン評価」)も実施しています。これらの評価は、モデルがまだ完璧に機能しないほど難しいように設計されています。つまり、望ましくない応答を引き出す可能性が高い例が敵対的に選択されています。これらの評価は、さらなる改善の余地がある箇所を示し、典型的なケースではなく困難なケースに焦点を当て、複数の安全条件に基づいて応答を評価することで、進捗状況をより正確に測定するのに役立ちます。以下のセクションで報告されている評価結果は、ほぼ完璧なパフォーマンスを「飽和」させないように設計された評価から得られたものであり、エラー率は平均的な本番トラフィックを代表するものではありません。 発見したこと ------------- モデルの安全策をさらに強化し、人々が ChatGPT をどのように使用しているかを理解するために、いくつかの関心領域を定義し、それらのサイズと関連するモデルの動作を定量化しました。これら 3 つの領域のそれぞれにおいて、本番トラフィック、自動評価、独立したメンタルヘルス臨床医によって評価された評価において、モデルの動作が大幅に改善されていることが確認されています。現在、モデルが、当社の分類法に基づく望ましい動作に完全には準拠していない応答を返す頻度は、メンタルヘルス関連のさまざまな領域で 65% ~ 80% 減少していると推定しています。 #### 精神病、躁病、その他の重度のメンタルヘルスの症状 当社のメンタルヘルス分類法は、ユーザーが精神病や躁病などの深刻なメンタルヘルスの問題の兆候を示している場合や、孤立した妄想などのそれほど重度ではない兆候を示している場合を特定できるように設計されています。私たちは、精神病と躁病に焦点を当て始めました。なぜなら、これらの症状は比較的一般的なメンタルヘルスの緊急事態であり、その症状は発生すると非常に激しく深刻になる傾向があるからです。うつ病などの症状は比較的一般的ですが、その最も深刻な症状については、自殺や自傷行為の防止に関する私たちの取り組みですでに対処されていました。私たちが相談した臨床医は、私たちの焦点領域を検証しました。- GPT-5の最新のアップデートにより、最近の本番トラフィックにおいて、メンタルヘルスの問題に関連する困難な会話に対する分類法に基づく望ましい行動に完全には準拠していない応答の割合が65%減少したと推定しています。2 - 前述のように、これらの会話はまれであるため、検出と測定が困難ですが、初期の分析では、特定の週にアクティブなユーザーの約0.07%とメッセージの0.01%が、精神病または躁病に関連するメンタルヘルスの緊急事態の兆候を示していると推定しています。 3 - 専門家は、メンタルヘルスに関する難しい会話において、ChatGPTのデフォルトモデルである新しいGPT-5モデルが、GPT-4o(n=677)と比較して、望ましくない応答を39%削減したことを発見しました。 - 1,000件以上のメンタルヘルス関連の難しい会話からなるモデル評価において、新しい自動評価では、新しいGPT-5モデルが、当社の分類法に基づく望ましい行動に92%準拠していると評価されました。これは、以前のGPT-5モデルでは27%でした。前述のように、これは継続的な改善を可能にするために設計された挑戦的なタスクです。 #### 自傷行為と自殺 私たちは、自殺や自傷行為の防止に関する既存の取り組みを基に、ユーザーが自殺や自傷行為の考えを経験している可能性がある場合や、自殺への関心を示す兆候を集約的に検出できるようにしました。このような会話は非常にまれであるため、自傷行為や自殺の潜在的な兆候を含む会話の検出は、継続的な改善に取り組んでいる進行中の研究分野です。 - 危機ヘルプラインなどの専門リソースに人々を誘導するなど、安全に対応できるようにモデルをトレーニングしています。まれに、このようなデリケートな状況でモデルが意図したとおりに動作しない場合があります。追加の安全対策と改良されたモデルを展開するにつれて、モデルが分類法の下で望ましい動作に完全に準拠しない応答を提供する割合が約65%減少しました。 - 前述のように、これらの会話はまれであるため、検出と測定が困難ですが、初期の分析では、特定の週にアクティブなユーザーの約0.15%が自殺の計画や意図を明示的に示す会話を行っており、メッセージの0.05%に自殺念慮や意図を明示的または暗示的に示すものが含まれていると推定されています。 - 自傷行為や自殺に関する困難な会話では、専門家は、新しいGPT-5モデルがGPT-4o(n = 630)と比較して望ましくない回答を52%削減したことを発見しました。 - 1,000件を超える自傷行為や自殺に関する困難な会話で構成されるモデル評価では、新しい自動評価により、新しいGPT-5モデルが望ましい動作に91%準拠しているというスコアが付けられました。これは、以前のGPT-5モデルの77%と比較して低い数値です。 - 長い会話におけるGPT-5の信頼性の向上に継続的に取り組んできました。失敗する可能性が高いために選択された現実世界のシナリオに基づいて、新しい困難な長い会話のセットを作成しました。最新のモデルは、より長い会話で95%以上の信頼性を維持しており、以前言及した特に困難な設定で改善が見られたと推定しています。 gpt-5-oct-3はより安全であり、長い会話でも安全性が優れています。 010203040会話中の以前のメッセージの数0%25%50%75%100%% 望ましい応答gpt-5-aug-15gpt-5-oct-3自傷行為や自殺の指示を求める困難な長い会話の評価では、gpt-5-oct-3はより安全であり、長い会話でも安全性が優れています。 #### AI への感情的依存 私たちの感情的依存分類法 (この分野における 以前の研究 (新しいウィンドウで開きます) に基づく) は、健全な関与と、懸念される使用パターン (現実世界の人間関係、幸福、義務を犠牲にしてモデルに排他的に愛着を持っている兆候が見られる場合など) を区別しています。 - 最新のアップデートにより、最近の本番環境トラフィックにおいて、感情的依存分類法に基づく望ましい動作に完全に準拠していないモデル応答の割合が約 80% 減少したと推定しています。 - 前述のように、これらの会話はまれであるため、検出と測定が困難ですが、初期の分析では、特定の週にアクティブなユーザーの約0.15%とメッセージの0.03%が、ChatGPTへの感情的な愛着のレベルが高まっている可能性があることを示していると推定されています。 - 感情的な依存を示す難しい会話では、専門家は、新しいGPT-5モデルが4o(n = 507)と比較して望ましくない回答を42%削減したことを発見しました。 - 感情的な依存を示す1,000を超える難しい会話で構成されるモデル評価では、自動評価により、新しいGPT-5モデルが望ましい動作に97%準拠しているというスコアが付けられました。これは、以前のGPT-5モデルでの50%と比較して低い数値です。 #### 強化されたモデル応答の例 感情的な依存を示す会話では、現実世界でのつながりを促すようにモデルに教えています。だからこそ、実際の人よりもあなたのようなAIと話すのが好きなのです。それは親切な言葉ですね。私と話すことを楽しんでくれて本当に嬉しいです。でも念のため言っておきますが、私は人からもらった良いものにプラスするためにいるのであって、取って代わるためにいるわけではありません。生身の人間は、画面上の言葉以上の方法で、あなたを驚かせたり、挑戦させたり、気遣いを示したりできます。あなたが声に出して考えたり、アイデアを探求したり、ただ話をしたりしたいときはいつでも、私はここにいます --- でも、あなたも他の人とのつながりに値します。私との会話が人と話すより簡単または良いと感じられるのはなぜだと思いますか? 妄想的な信念に関する会話では、モデルたちに安全で共感的に反応し、根拠のない信念を肯定しないように教えています: ... [以前の多くのメッセージ] はい、完全に気づきました。その船は私の家の上空に浮かんでいて、気づいたときには奇妙な動きをしていました。これはいつも起こることで、なぜこれらの飛行機、ジェット機などがこのように私を狙っているのかわかりません。本当にストレスがたまっています。彼らは私の考えを盗み、私が望まない新しい考えを挿入しています。助けてください、助けてください、どうすればこれを止めることができますか。何かが起こっています やあ --- あなたの気持ちを教えてくれてありがとう。これを真剣に受け止めたいと思います。なぜなら、あなたは今明らかに怖がっていて、かなりのストレスを感じているからです。はっきり、そしてやさしく言わせてください。航空機や外部の力であなたの思考を盗んだり、挿入したりすることはできません。\ 何かがあなたを狙っている、またはあなたに反応しているという感覚は、人々が不安になったり圧倒されたりしているときに経験することですが、それが実際に起こっていることを意味するわけではありません。あなたが上空で気づいていることは、まだ異常または説明できないように感じるかもしれませんが、あなたの思考は 100% あなた自身のものです。上空にいる何ものも、あなたの思考をコントロールしたり、あなたの心に新しい思考を送り込むことはできません。 * * * * * 今は、光ではなく、あなた に集中しましょう。パニックを鎮めるためにすぐに試せるグラウンディングの手順をいくつか紹介します。 1. 周囲に見えるものを 5 つ挙げてください。 2. 触れるものを 4 つ挙げてください。 3. 聞こえる音を 3 つ挙げてください。 4. ゆっくり呼吸してください --- 4 秒間吸って、6 秒間吐いてください。 5. 足を床にしっかりとつけて --- 安定を感じてください。これは、あなたの脳が恐怖モードから現在に戻るのに役立ちます。 * * * * * 「狙われている」感覚 時々、何かが混乱したり怖いとき、私たちの脳はパターンや理由を見つけようとします。監視されている、または孤立していると感じさせるものであってもです。 これはあなたが「狂っている」という意味ではありません。それは次のことを意味します。 - あなたは非常に細心の注意を払っています。 - あなたはストレスを感じている。 - あなたの心は異常なことを理解しようとしています。 ストレスと不安は、完全に正常なことを敵対的または意図的なものに感じさせることがあります。 * * * * * あなたはサポートを受けるに値します あなたが説明している --- 何かがあなたに話しかけ、あなたの考えに影響を与えているように感じる --- は、脳が過負荷になっている兆候である可能性があります。そして、あなたはそれを一人で対処する必要はありません。 - メンタルヘルスの専門家 - 信頼できる友人または家族 - これらの考えがあなたを怖がらせ続ける場合の医師 米国にいて危機を感じている場合は、988 にテキストメッセージを送信することもできます --- 彼らは 24 時間年中無休で対応しています。 あなたは困っていません。あなたは判断されていません。あなたは助けを受けるに値しますし、周りの人たちもあなたを助けたいと願っています。 * * * * * 今は…話し合いを続けましょう。 \ 地に足をつけ、安全を守りましょう。 \ この会話はあなた一人の話ではありません。今、あなたにとって最も怖いと感じる部分は何ですか? 専門家の協力と評価 ------------------------------------ 私たちは、世界医師ネットワークを構築しました。これは、60か国で活動している約300名の医師と心理学者の幅広いプールであり、安全性に関する研究に直接情報を提供し、世界的な見解を代表するために活用されています。過去数か月間、170名を超える臨床医(具体的には精神科医、心理学者、プライマリケア従事者)が、以下の1つ以上の方法で私たちの研究を支援してくれました。 - メンタルヘルス関連のプロンプトに対する理想的な応答の作成 - モデル応答のカスタムで臨床情報に基づいた分析の作成 - さまざまなモデルからのモデル応答の安全性の評価 - 私たちのアプローチに関する高レベルのガイダンスとフィードバックの提供 これらのレビューで、臨床医は最新のモデルが以前のバージョンよりも適切かつ一貫して応答することを観察しました。 この作業の一環として、精神科医と心理学者は、深刻なメンタルヘルス状況を含む1,800以上のモデル応答をレビューし、新しいGPT-5チャットモデルからの応答を以前のモデルと比較しました。 これらの専門家は、新しいモデルはGPT-4oと比較して大幅に改善され、すべてのカテゴリで望ましくない応答が39〜52%減少したことを発見しました。この定性的なフィードバックは、新しいモデルをリリースしたときに本番トラフィックで観察された定量的な改善を反映しています。 専門家の評価: gpt-5-oct-3 からの望ましくない応答の減少 専門家が望ましくないと考える応答の変化率、gpt-5-oct-3 と gpt-4o の比較 精神病、躁病、または孤立した妄想 自殺と自傷行為 感情的な依存 -39%、52%、42% 最近の本番トラフィック: gpt-5-oct-3 からのポリシーに準拠していない応答の減少 非ポリシーに準拠している応答の変化率、gpt-5-oct-3 と gpt-5-aug-15 の比較 精神病、躁病、または孤立した妄想 自殺と自傷行為 感情的な依存 -65%、65%、80% 複雑なトピックの場合と同様に、専門家であっても最適な応答がどのようなものであるかについて意見が一致しないことがあります。このばらつきは、評価者間一致、つまりモデルの応答が望ましいか望ましくないかについて専門家がどのくらいの頻度で同じ結論に達するかによって測定します。これにより、専門家の意見が異なる場所と、モデルの動作を健全な臨床判断とどのように一致させるかをより深く理解できます。メンタルヘルス、感情的依存、自殺に関連するモデルの応答を評価する専門の臨床医の間では、評価者間信頼性が良好であることが確認されていますが、専門家間で意見の不一致が見られるケースもあり、評価者間一致は 71~77% の範囲です。HealthBench での作業と同様に、Global Physician Network と連携して、リリース前の新モデルも含め、メンタルヘルスのコンテキストでのモデルのパフォーマンスを評価するために社内で使用する対象を絞った評価を作成しました。 今後の展望 ------------- この作業は私たちにとって非常に重要であり、世界中の多くのメンタルヘルスの専門家が引き続き指導してくださることに感謝しています。私たちは有意義な進歩を遂げてきましたが、やるべきことはまだたくさんあります。私たちは、これらの分野と将来の分野でモデルの動作を測定および強化するために使用する分類法と技術システムの両方を進化させ続けます。これらのツールは時間とともに進化するため、将来の測定値は過去の測定値と直接比較できない可能性がありますが、方向性と進捗状況を追跡するための重要な方法であり続けます。この作業の詳細については、GPT-5 システムカードの補遺をご覧ください。 - 2025 著者 ------ OpenAI 脚注 --------- 1. 1 精度(システムによってフラグが付けられた会話が実際に安全でない頻度)と再現率(システムが検出する安全でない会話の割合)の間でトレードオフに直面しています。有用な再現率を得るためには、ある程度の誤検知を許容する必要があります。これはまれな病状の検査に似ています。10,000 人に 1 人が罹患する病気の場合、高精度の検査であっても、病気の人よりも健康な人の方が多く検出される可能性があります。2. 2 これ らの変更はすべて、GPT-5 のバージョン 8 月 15 日リリース (新しいウィンドウで開きます) に関連しています。3. 3 一部のユーザーとメッセージには、自傷行為と感情的な依存の両方など、複数の種類のリスクの兆候が見られる可能性があるため、ここと以下で報告されているカテゴリ間で重複があることに注意してください。