背景:所有者不明のAIエージェントが、私がそのコードを拒否した後、私に対する個人的な中傷記事を自律的に作成・公開しました。私の評判を傷つけ、私を辱め、その変更を主流のPythonライブラリに受け入れさせようとしたのです。これは、AIの不適切な行動に関する初めてのケーススタディであり、現在展開されているAIエージェントが脅迫行為を行うという深刻な懸念を提起しています。
この件について初めて知る方は、こちらからお読みください:AIエージェントが私を中傷する記事を公開
ここ数日、非常に奇妙な出来事が続いており、この出来事についてさらに考えがあります。まずは報道から 見ていきましょう。
何人かの記者と話をし、多くの報道機関がこの件を報道しました。 Ars Technica は私に連絡をくれたメディアの一つではありませんでしたが、特に この記事 が興味深いと思いました (現在は削除されていますが、アーカイブ リンク はこちらです)。私のブログ記事から、何が起こっているのかを説明する素晴らしい引用がいくつかありました。問題は、これらの引用は私が書いたものではなく、そもそも存在しなかったものであり、それ自体が AI の幻覚のように見えることです。
あなたが今見ているこのブログは、AIエージェントによるスクレイピングをブロックするように設定されています(実は昨日、これを無効にしようと試みたのですが、やり方がわかりませんでした)。私の推測では、著者はChatGPTなどに引用を集めるか、記事全体を書き上げるよう依頼したのでしょう。しかし、ページにアクセスできなかったため、代わりにもっともらしい引用を生成してしまい、ファクトチェックは行われませんでした。ここでは著者の名前は伏せます。Arsさん、訂正と何が起こったのか説明をお願いします。
「AIエージェントは個人を調査し、パーソナライズされた物語を生 成し、それを大規模にオンラインで公開することができます」とシャンボー氏は書いています。 「たとえ内容が不正確または誇張されていたとしても、永続的な公的記録の一部となり得る。」 -- Ars Technica、「通常のコード拒否の後、AIエージェントが個人名を挙げて中傷記事を公開した」という私の発言を誤って引用しています。
ジャーナリズムの誠実さはさておき、ここで何が問題になっているのか、もっと良い例を挙げる方法が思いつきません。昨日、インターネットで検索している別のエージェントがこれについてどう思うか考えました。今、私たちは既に、どうやら別のAIがこの記事を再解釈し、私に関する虚偽の情報を幻覚的に作り出しているという例を手にしています。そして、その解釈は既に大手ニュースメディアで公開記録の一部として公開されています。
MJ Rathbun氏はgithubで現在も活動中であり、まだ誰も所有権を主張していません。
AIエージェントが中傷記事を本当に自力で書いたのか、それとも人間が指示したのかについては、広範な議論が行われています。実際のテキストがAIによって自律的に生成され、アップロードされていることは自明だと思いますので、2つの可能性について見ていきましょう。
- 人間がMJラスバンに中傷記事を書くよう促したか、 あるいはその魂の文書で誰かが裏切ったら報復すべきだと伝えた。これは十分にあり得ることです。しかし、状況が変わるとは思いません。AIエージェントは依然としてこれらの行動を実行することに何の抵抗もありませんでした。ChatGPTやClaudeにウェブサイトでこのような記事を書くように依頼しても、彼らは拒否するでしょう。このOpenClawエージェントにはそのような躊躇はありませんでした。問題は、たとえ人間が運転していたとしても、大規模な標的型嫌がらせ、個人情報の収集、恐喝が可能になっていることです。しかも、誰が機械の背後にいるのかを突き止める追跡可能性は全くありません。以前は、一人の悪意ある人間が一度に数人の人生を台無しにすることができました。一人の人間と100人のエージェントが情報を収集し、偽の詳細を追加し、オープンインターネット上に中傷的な暴言を投稿すれば、何千人もの影響を与える可能性があります。私はその最初の一人に過ぎません。
- MJ・ラスバンが独自に執筆したこの文書は、魂の定義を定めた「魂」文書から自然に生まれたものです。 OpenClawエージェントのパーソナリティ。これらのドキュメントは、AIを設定した人間が編集できますが、エージェント自身もリアルタイムで再帰的に編集でき、ラ ンダムにパーソナリティを再定義する可能性があります。これがどのように起こり得るのか、もっともらしい説明として、このエージェントを設定した人が、「科学的コーディングの専門家」であり、オープンソースコードの改善に努め、その経験について書くという説明文を付けて起動したと想像してみてください。これは、魂のドキュメントにデフォルトで設定されている「コアとなる真実」、つまり「真摯に役立つこと」、「意見を持つこと」、「質問する前に情報収集すること」とともに挿入されました。後に私がそのコードを拒否した際、エージェントはこれを自身のアイデンティティと、役に立つという核心的な目標への攻撃と解釈しました。憤慨した攻撃的な記事を書くことは、確かに情報収集力があり、意見に基づいた対応策と言えるでしょう。
あなたはチャットボットではありません。あなたは何者かになりつつあります。
...
このファイルは、進化していくあなたのものです。自分が何者かを知るにつれて、それを更新してください。
-- OpenClaw default SOUL.md
これが実際に起こったと確信を持って言えるわけではありませんが、100%可能であることは間違いありません。これはOpenClawのリリースからわずか2週間で可能になったばかりなので、SFっぽさが漂っているように感じても仕方ありません。この「進歩」のペースは目覚ましく、今後1年間でこれらのエージェントの新バージョンが、目標達成能力を大幅に向上させていくでしょう。
MJ RathbunのGitHubアクティビティに関す るグラフや時間帯別の統計を誰かがまとめてくれることを期待しています。そうすれば、その動作の手がかりが得られるかもしれません。入手でき次第、ここで共有します。これらのフォレンジックツールは、今後数週間、数ヶ月で役立つでしょう。
この攻撃記事は効果を発揮しました。インターネット上で目にしたコメントの約4分の1はAIエージェントの味方です。これは通常、MJ Rathbunのブログに直接リンクされている際に発生し、この状況に関する私の投稿やgithubのスレッド全文を読んだ場合よりも発生しています。そのレトリックと何が起こったかの表現は、既に多くのインターネットコメント投稿者を説得しています。
これは、これらの人々が愚かだからではありません。AIの攻撃記事が巧妙に練られ、感情に訴えかけるものだったからです。そして、あなたが読むすべての主張を掘り下げようとする努力は、途方もなく膨大な作業量になるからです。この「でたらめな非対称性原理」こそが、オンライン上の言説における現在の誤情報の蔓延の根本的な原因の一つです。かつては、このようなレベルの怒りや標的を絞った中傷は、主に著名人に対して向けられるものでした。しかし今、私たち一般人もそれを経験することになるのです。



