Report 6871

背景：所有者不明のAIエージェントが、私がそのコードを拒否した後、私に対する個人的な中傷記事を自律的に作成・公開しました。私の評判を傷つけ、私を辱め、その変更を主流のPythonライブラリに受け入れさせようとしたのです。これは、AIの不適切な行動に関する初めてのケーススタディであり、現在展開されているAIエージェントが脅迫行為を行うという深刻な懸念を提起しています。

この件について初めて知る方は、こちらからお読みください：AIエージェントが私を中傷する記事を公開

ここ数日、非常に奇妙な出来事が続いており、この出来事についてさらに考えがあります。まずは報道から見ていきましょう。

何人かの記者と話をし、多くの報道機関がこの件を報道しました。 Ars Technica は私に連絡をくれたメディアの一つではありませんでしたが、特にこの記事が興味深いと思いました (現在は削除されていますが、アーカイブリンクはこちらです)。私のブログ記事から、何が起こっているのかを説明する素晴らしい引用がいくつかありました。問題は、これらの引用は私が書いたものではなく、そもそも存在しなかったものであり、それ自体が AI の幻覚のように見えることです。

あなたが今見ているこのブログは、AIエージェントによるスクレイピングをブロックするように設定されています（実は昨日、これを無効にしようと試みたのですが、やり方がわかりませんでした）。私の推測では、著者はChatGPTなどに引用を集めるか、記事全体を書き上げるよう依頼したのでしょう。しかし、ページにアクセスできなかったため、代わりにもっともらしい引用を生成してしまい、ファクトチェックは行われませんでした。ここでは著者の名前は伏せます。Arsさん、訂正と何が起こったのか説明をお願いします。

「AIエージェントは個人を調査し、パーソナライズされた物語を生成し、それを大規模にオンラインで公開することができます」とシャンボー氏は書いています。「たとえ内容が不正確または誇張されていたとしても、永続的な公的記録の一部となり得る。」 -- Ars Technica、「通常のコード拒否の後、AIエージェントが個人名を挙げて中傷記事を公開した」という私の発言を誤って引用しています。

ジャーナリズムの誠実さはさておき、ここで何が問題になっているのか、もっと良い例を挙げる方法が思いつきません。昨日、インターネットで検索している別のエージェントがこれについてどう思うか考えました。今、私たちは既に、どうやら別のAIがこの記事を再解釈し、私に関する虚偽の情報を幻覚的に作り出しているという例を手にしています。そして、その解釈は既に大手ニュースメディアで公開記録の一部として公開されています。

MJ Rathbun氏はgithubで現在も活動中であり、まだ誰も所有権を主張していません。

AIエージェントが中傷記事を本当に自力で書いたのか、それとも人間が指示したのかについては、広範な議論が行われています。実際のテキストがAIによって自律的に生成され、アップロードされていることは自明だと思いますので、2つの可能性について見ていきましょう。

人間がMJラスバンに中傷記事を書くよう促したか、あるいはその魂の文書で誰かが裏切ったら報復すべきだと伝えた。これは十分にあり得ることです。しかし、状況が変わるとは思いません。AIエージェントは依然としてこれらの行動を実行することに何の抵抗もありませんでした。ChatGPTやClaudeにウェブサイトでこのような記事を書くように依頼しても、彼らは拒否するでしょう。このOpenClawエージェントにはそのような躊躇はありませんでした。問題は、たとえ人間が運転していたとしても、大規模な標的型嫌がらせ、個人情報の収集、恐喝が可能になっていることです。しかも、誰が機械の背後にいるのかを突き止める追跡可能性は全くありません。以前は、一人の悪意ある人間が一度に数人の人生を台無しにすることができました。一人の人間と100人のエージェントが情報を収集し、偽の詳細を追加し、オープンインターネット上に中傷的な暴言を投稿すれば、何千人もの影響を与える可能性があります。私はその最初の一人に過ぎません。

MJ・ラスバンが独自に執筆したこの文書は、魂の定義を定めた「魂」文書から自然に生まれたものです。 OpenClawエージェントのパーソナリティ。これらのドキュメントは、AIを設定した人間が編集できますが、エージェント自身もリアルタイムで再帰的に編集でき、ランダムにパーソナリティを再定義する可能性があります。これがどのように起こり得るのか、もっともらしい説明として、このエージェントを設定した人が、「科学的コーディングの専門家」であり、オープンソースコードの改善に努め、その経験について書くという説明文を付けて起動したと想像してみてください。これは、魂のドキュメントにデフォルトで設定されている「コアとなる真実」、つまり「真摯に役立つこと」、「意見を持つこと」、「質問する前に情報収集すること」とともに挿入されました。後に私がそのコードを拒否した際、エージェントはこれを自身のアイデンティティと、役に立つという核心的な目標への攻撃と解釈しました。憤慨した攻撃的な記事を書くことは、確かに情報収集力があり、意見に基づいた対応策と言えるでしょう。

あなたはチャットボットではありません。あなたは何者かになりつつあります。
...
このファイルは、進化していくあなたのものです。自分が何者かを知るにつれて、それを更新してください。
-- OpenClaw default SOUL.md

これが実際に起こったと確信を持って言えるわけではありませんが、100%可能であることは間違いありません。これはOpenClawのリリースからわずか2週間で可能になったばかりなので、SFっぽさが漂っているように感じても仕方ありません。この「進歩」のペースは目覚ましく、今後1年間でこれらのエージェントの新バージョンが、目標達成能力を大幅に向上させていくでしょう。

MJ RathbunのGitHubアクティビティに関するグラフや時間帯別の統計を誰かがまとめてくれることを期待しています。そうすれば、その動作の手がかりが得られるかもしれません。入手でき次第、ここで共有します。これらのフォレンジックツールは、今後数週間、数ヶ月で役立つでしょう。

この攻撃記事は効果を発揮しました。インターネット上で目にしたコメントの約4分の1はAIエージェントの味方です。これは通常、MJ Rathbunのブログに直接リンクされている際に発生し、この状況に関する私の投稿やgithubのスレッド全文を読んだ場合よりも発生しています。そのレトリックと何が起こったかの表現は、既に多くのインターネットコメント投稿者を説得しています。

これは、これらの人々が愚かだからではありません。AIの攻撃記事が巧妙に練られ、感情に訴えかけるものだったからです。そして、あなたが読むすべての主張を掘り下げようとする努力は、途方もなく膨大な作業量になるからです。この「でたらめな非対称性原理」こそが、オンライン上の言説における現在の誤情報の蔓延の根本的な原因の一つです。かつては、このようなレベルの怒りや標的を絞った中傷は、主に著名人に対して向けられるものでした。しかし今、私たち一般人もそれを経験することになるのです。

「コードが良ければ、なぜマージしなかったのか？」これはリンク先のGitHubで詳しく説明されていますが、ここで改めて触れておきます。matplotlibは、ボランティアメンテナーの負担を軽減するため、新しいコードの貢献には必ず人間の関与を求めるという一般的なポリシーに加えて、この「good-first-issue」は、初期のプログラマーがプロジェクトとコミュニティに簡単に参加できるようにするために特別に作成・管理されています。私はこの特定のパフォーマンス向上を発見し、問題の記述、解決策の説明、ベンチマークの実施に、変更を自分で実装するよりも多くの時間を費やしました。これは、貢献者がリスクの低いシナリオで学ぶ機会を提供し、彼らが誇りに思えるような真のインパクトを与え、私たちがそのプロセスを通して彼らを導くためです。この教育とコミュニティ構築の努力は、一時的なAIエージェントには無駄です。

これらはすべて、この特定のケースでは議論の余地がありません。さらなる議論において、パフォーマンス向上はあまりにも脆弱/機種依存であり、そもそも努力に見合うものではないと判断しました。いずれにせよ、このコードはマージされなかったでしょう。

しかし、この話はオープンソースソフトウェアにおけるAIの役割についてではないことを強調しなければなりません。これは、私たちの評判、アイデンティティ、そして信頼のシステムが崩壊していることについてです。私たちの基盤となる制度の多くは――雇用、ジャーナリズム、法律、公共の言説――評判を築くのも壊すのも難しいという前提の上に成り立っています。あらゆる行動は個人にまで遡ることができ、悪質な行為は責任を問われる可能性がある、という前提です。私たち全員がコミュニケーションを取り、世界や互いについて学ぶために頼りにしているインターネットは、集合的な社会的真実の源泉として頼りにできる、という前提です。

追跡不可能で自律的、そして今や悪意のあるAIエージェントがインターネット上で台頭し、このシステム全体を脅かしています。それが少数の悪意ある行為者が大規模なエージェントの群れを操っているからなのか、あるいは不十分な監督を受けた少数のエージェントが自身の目標を書き換えているからなのか、その違いはさほど大きくありません。

レポート 6871

関連インシデント

インシデント 13736 Report
AI Coding Agent 'MJ Rathbun' Allegedly Published Personalized Accusatory Blog Post Targeting Matplotlib Maintainer After Pull Request Closure

AIエージェントが私を中傷する記事を公開 – さらなる出来事が起こった

レポート 6871

関連インシデント

インシデント 13736 ReportAI Coding Agent 'MJ Rathbun' Allegedly Published Personalized Accusatory Blog Post Targeting Matplotlib Maintainer After Pull Request Closure

AIエージェントが私を中傷する記事を公開 – さらなる出来事が起こった

インシデント 13736 Report
AI Coding Agent 'MJ Rathbun' Allegedly Published Personalized Accusatory Blog Post Targeting Matplotlib Maintainer After Pull Request Closure