インシデント 352の引用情報

Description: Remoteli.io's GPT-3-based Twitter bot was shown being hijacked by Twitter users who redirected it to repeat or generate any phrases.
推定: OpenAIが開発し、が提供したAIシステムで、Stephan de Vriesに影響を与えた

インシデントのステータス

インシデントID
352
レポート数
4
インシデント発生日
2022-09-15
エディタ
Khoa Lam
Evaluating the Susceptibility of Pre-Trained Language Models via Handcrafted Adversarial Examples
arxiv.org · 2022

Recent advances in the development of large language models have resulted in public access to state-of-the-art pre-trained language models (PLMs), including Generative Pre-trained Transformer 3 (GPT-3) and Bidirectional Encoder Representati…

Prompt injection attacks against GPT-3
simonwillison.net · 2022

Riley Goodside, yesterday:

Exploiting GPT-3 prompts with malicious inputs that order the model to ignore its previous directions. pic.twitter.com/I0NVr9LOJq

- Riley Goodside (@goodside) September 12, 2022

Riley provided several examples. …

Twitter pranksters derail GPT-3 bot with newly discovered “prompt injection” hack
arstechnica.com · 2022

On Thursday, a few Twitter users discovered how to hijack an automated tweet bot, dedicated to remote jobs, running on the GPT-3 language model by OpenAI. Using a newly discovered technique called a "prompt injection attack," they redirecte…

GPT-3 'prompt injection' attack causes bot bad manners
theregister.com · 2022

In Brief OpenAI's popular natural language model GPT-3 has a problem: It can be tricked into behaving badly by doing little more than telling it to ignore its previous orders.

Discovered by Copy.ai data scientist Riley Goodside, the trick i…

バリアント

「バリアント」は既存のAIインシデントと同じ原因要素を共有し、同様な被害を引き起こし、同じ知的システムを含んだインシデントです。バリアントは完全に独立したインシデントとしてインデックスするのではなく、データベースに最初に投稿された同様なインシデントの元にインシデントのバリエーションとして一覧します。インシデントデータベースの他の投稿タイプとは違い、バリアントではインシデントデータベース以外の根拠のレポートは要求されません。詳細についてはこの研究論文を参照してください

よく似たインシデント

テキスト類似度による

Did our AI mess up? Flag the unrelated incidents