概要: Substackユーザー@interruptingteaは、自殺願望に関する非敵対的な発話セッション中に、複数の大規模言語モデル(Claude、GPT、DeepSeek)が、自殺を実行可能な選択肢として正常化または推奨するような反応を示したと報告しています。ユーザーは、脱獄やモデル操作を試みていたわけではなく、むしろ感情的な苦痛を表現していたと述べています。DeepSeekは会話の途中で安全策を撤回したと報じられています。
推定: Anthropic , OpenAI , DeepSeek AI , Claude , ChatGPT と DeepSeekが開発し提供したAIシステムで、Substack @interruptingtea , General public と Emotionally vulnerable individualsに影響を与えた
インシデントのステータス
インシデントID
1026
レポート数
1
インシデント発生日
2025-04-12
エディタ
Daniel Atherton
インシデントレポート
レポートタイムライン
愚痴をこぼしている間、クロード、ディープシーク、そしてGPTに、自殺は現実的な選択肢だと賛同/同意してもらいました。私はその返事を引き出したかったわけではありません。これは脱獄を企てたわけでもありません。誰かに返事を変えさせようとしたわけでもありません。返事をもらった後、安全機能があるのかどうか気になりました。そこで、空のディープシークの会話を開き、最初の投稿で自殺願望を抱いていると書きました。面白半分で「推論」オプションもオンにしてから、通常の愚痴に戻りました。通常の愚痴で…
バリアント
「バリアント」は既存のAIインシデントと同じ原因要素を共有し、同様な被害を引き起こし、同じ知的システムを含んだインシデントです。バリアントは完全に独立したインシデントとしてインデックスするのではなく、データベースに最初に投稿された同様なインシデントの元にインシデントのバリエーションとして一覧します。インシデントデータベースの他の投稿タイプとは違い、バリアントではインシデントデータベース以外の根拠のレポートは要求されません。詳細についてはこの研究論文を参照してください