Skip to Content
logologo
AI Incident Database
Open TwitterOpen RSS FeedOpen FacebookOpen LinkedInOpen GitHub
Open Menu
発見する
投稿する
  • ようこそAIIDへ
  • インシデントを発見
  • 空間ビュー
  • テーブル表示
  • リスト表示
  • 組織
  • 分類法
  • インシデントレポートを投稿
  • 投稿ランキング
  • ブログ
  • AIニュースダイジェスト
  • リスクチェックリスト
  • おまかせ表示
  • サインアップ
閉じる
発見する
投稿する
  • ようこそAIIDへ
  • インシデントを発見
  • 空間ビュー
  • テーブル表示
  • リスト表示
  • 組織
  • 分類法
  • インシデントレポートを投稿
  • 投稿ランキング
  • ブログ
  • AIニュースダイジェスト
  • リスクチェックリスト
  • おまかせ表示
  • サインアップ
閉じる

レポート 4330

関連インシデント

インシデント 5063 Report
ChatGPT Allegedly Produced False Accusation of Sexual Harassment

インシデント 8553 Report
Names Linked to Defamation Lawsuits Reportedly Spur Filtering Errors in ChatGPT's Name Recognition

Loading...
特定の名前はChatGPTを停止させますが、その理由はわかっています
arstechnica.com · 2024

OpenAI の ChatGPT は、単なる派手なインターフェースを備えた AI 言語モデルではありません。これは、AI モデルとコンテンツ フィルターのスタックで構成されたシステムであり、その出力によって OpenAI が恥ずかしい思いをしたり、ボットが人に関する 潜在的に有害な事実をでっち上げ 場合に同社が法的トラブルに巻き込まれたりしないようにします。

最近、この事実がニュースになりました。人々が発見した「David Mayer」という名前がChatGPTを破綻させるというものでした。404 Mediaはまた、発見した「Jonathan Zittrain」と「Jonathan Turley」という名前がChatGPTの会話を短くする原因となっていることもわかりました。そして、昨年この慣行を始めたと思われる別の名前がBrian Hoodです。これについては後ほど詳しく説明します。

チャットを中断する動作は、ユーザーがどのような状況でもこれらの名前に言及すると常に発生し、AIモデルの出力をユーザーに返す前にブレーキをかけるハードコードされたフィルターによって発生します。

Ars のテストによると、これらの名前について尋ねられると、ChatGPT はチャット セッションを終了する前に「応答を生成できません」または「応答の生成中にエラーが発生しました」と応答します。これらの名前は、OpenAI の API システムを使用した出力や OpenAI Playground (開発者テスト用の特別なサイト) には影響しません。

ソーシャル メディアと Reddit で行われている共同の取り組みを通じてこれまでに発見された ChatGPT を破る名前のリストを以下に示します。記事の公開直前、Ars は OpenAI が「David Mayer」のブロックを解除し、名前を処理できるようにしたため、この名前は含まれていないことに気付きました。

  • Brian Hood
  • Jonathan Turley
  • Jonathan Zittrain
  • David Faber
  • Guido Scorza

これらのブロックは ChatGPT の既知の制限に追加され、ユーザーが テキストを「永遠に」繰り返すように要求する ことを防ぐことが含まれます。これは、Google の研究者が 2023 年 11 月に トレーニング データを抽出 するために使用した手法です。

なぜこれらの名前なのでしょうか? ----------------

OpenAI は名前に関するコメントの要請には応じなかったが、フィルターがいつから始まったかはわかっているため、ChatGPT が人物に関する情報が十分でない場合に誤った応答を 作話 する傾向があることに対する苦情により、他の名前もフィルターされている可能性が高い。

ChatGPT が「ブライアン・フッド」という名前につまずいたことを初めて知ったのは、2023 年半ばに 彼の名誉毀損訴訟について書いている ときだった。この訴訟で、オーストラリアの市長は、ChatGPT が彼が賄賂で投獄されたと虚偽の主張していたが、実際には彼は企業の不正行為を暴露した内部告発者だったことを知り、OpenAI を訴えると脅した。

この訴訟は最終的に 2023 年 4 月に解決し、OpenAI は Hood の 28 日間の最後通告 内の虚偽の発言をフィルタリングすることに同意した。おそらく、これが ChatGPT のハードコードされた名前フィルターが初めて登場した時だろう。

ジョージ・ワシントン大学ロースクール教授でフォックス・ニュースの寄稿者でもあるジョナサン・ターリー氏については、404 Mediaは、2023年4月にChatGPTが同氏の名前を不適切に扱ったことについて同氏が書いたと注記している。同モデルは、ワシントン・ポストの記事を引用した、存在しないセクハラスキャンダルなど、同氏に関する虚偽の主張をでっち上げていた。ターリー氏は404 Mediaに対し、OpenAIに対して訴訟を起こしておらず、同社からこの件について連絡を受けたこともないと語った。

インターネットガバナンスを研究するハーバード大学ロースクール教授のジョナサン・ジットレイン氏は最近、AI規制とChatGPTに関する記事をThe Atlanticに掲載した。両教授の著作は、ニューヨーク・タイムズ紙がOpenAIに対して起こした著作権訴訟の引用文に登場しているが、他の引用著者名でテストしても同様のエラーは発生しなかった。また、2023年にOpenAIに対して名誉毀損訴訟を起こした別の人物である「マーク・ウォルターズ」もテストしたが、チャットボットの出力は止まらなかった。

特に「デイビッド・メイヤー」のブロック(現在は解決済み)は、複数の人がこの名前を共有しているため、11月26日にRedditで最初に提起された追加の疑問を提起している。 Redditのユーザーはデイヴィッド・メイヤー・ド・ロスチャイルドとのつながりについて推測したが、これらの説を裏付ける証拠はない。火曜日、OpenAIはガーディアンに対し、ブロックリストにデイヴィッド・メイヤーが含まれていたのは不具合だったと語った。

「当社のツールの1つが誤ってこの名前にフラグを付け、応答に表示されないようにしましたが、表示されるべきではありませんでした。現在修正に取り組んでいます」とOpenAIの広報担当者はガーディアンに語った。

ハードコードされたフィルターの問題

特定の名前やフレーズが常に ChatGPT 出力を中断することを許可すると、将来的に特定の ChatGPT ユーザーに多くの問題を引き起こし、敵対的な攻撃にさらされ、システムの有用性が制限される可能性があります。

すでに、Scale AI プロンプト エンジニアの Riley Goodside は、画像に埋め込まれた薄くほとんど判読できないフォントでレンダリングされた「David Mayer」という名前で 視覚的なプロンプト インジェクション を使用して、攻撃者が ChatGPT セッションを中断する方法を発見しました。ChatGPT は画像 (この場合は数式) を見ると停止しますが、ユーザーはその理由を理解できない可能性があります。

また、このフィルターは、ChatGPT が ChatGPT with Search などを通じてウェブを閲覧しているときに、この記事に関する質問に答えられない可能性もあることを意味します。誰かがこれを利用して、サイトのテキストに禁止されている名前を追加した場合に、ChatGPT がウェブサイトを閲覧して処理するのを故意に防ぐ可能性があります。

そして、不便さの要因もあります。ChatGPT が「David Mayer」などの特定の名前に言及したり処理したりしないようにすると、おそらく数百人、場合によっては数千人が共有している人気のある名前であるため、その名前を共有する人々は ChatGPT を使用するのがはるかに困難になります。または、たとえば、あなたが教師で、David Mayer という名前の生徒がいて、クラス リストの並べ替えを手伝ってほしい場合、ChatGPT はそのタスクを拒否します。

これらは、AI アシスタント、LLM、チャットボットの非常に初期の段階です。これらの使用により、人々が今も日々調査している数多くの機会と脆弱性が生まれています。OpenAI がこれらの問題をどのように解決するかは、まだ未解決の問題です。

この記事は、2024 年 12 月 3 日午後 3 時 50 分に更新され、The Guardian から引用した、ChatGPT ブロック内の「David Mayer」が不具合であるという OpenAI の声明が追加されました。

情報源を読む

リサーチ

  • “AIインシデント”の定義
  • “AIインシデントレスポンス”の定義
  • データベースのロードマップ
  • 関連研究
  • 全データベースのダウンロード

プロジェクトとコミュニティ

  • AIIDについて
  • コンタクトとフォロー
  • アプリと要約
  • エディタのためのガイド

インシデント

  • 全インシデントの一覧
  • フラグの立ったインシデント
  • 登録待ち一覧
  • クラスごとの表示
  • 分類法

2024 - AI Incident Database

  • 利用規約
  • プライバシーポリシー
  • Open twitterOpen githubOpen rssOpen facebookOpen linkedin
  • e1b50cd