Read Max本部よりご挨拶!今週の号は「ホワイト・ジェノサイド・グロク」です。今週はDouble Pivotポッドキャストに出演させていただき、私が以下に書いているのと同じアイデアのいくつかが議論されました。ちょうど私たちが話している時にイーロン・マスクがスピンアウトしたなんて、本当に幸運ですね。(トッテナム・ホットスパーについても話しました。) このポッドキャストは現在有料ですが、サッカーファンなら絶対に購読する価値があります。サブスクリプションと言えば…お知らせです!Read Maxは、以前は単に「Max」と呼ばれてい たHBO Maxと同様に、サブスクリプションビジネスです。しかし、HBO MaxやMaxとは異なり、「Read Max」は3,000人以上の有料購読者の支援のおかげで、完全に持続可能な運営をしています。彼らの寛大なご支援のおかげで、私はこのニュースレターをフルタイムの仕事のように扱うことができています。この記事が少しでもお役に立てば(教育的、情報的、面白いなど)、ぜひHBO Maxへの大幅割引での加入をご検討ください。月額わずか5ドル、または年額50ドルです。月にビール1本、年間で10本ほどおごってくれると思ってください。
イーロン・マスク時代のTwitterで最も面白い展開の1つは、xAIの「Grok」法学修士チャットボットがプラットフォームに統合されたことです。これにより、どのスレッドでもGrokにタグを付けて質問できるようになりました。今では、少しでも人気のあるツイートへの返信は、地球上で最も退屈な人たちによる「@grok これ本当?」というツイートでいっぱいになっています。 「@grok、このジョークを説明して」「@grok、これは何の映画?」「@grok、ここはどこ?どうやってここに来たの?」といった質問に対し、Grokは他の法学修士課程の学生と同様に、明るく、しかし滅多に正しい返答を試みない。私がこの展開を「面白い」と言うのは、Grokに取り憑かれた人々の避けられない集団が、2025年頃のTwitterの全体的な「作り物感」を最大限に高めているからでもあるが、それと…AIチャットボットの本来の用途は、プラットフォームの荒廃した世界でもっともくだらない議論を無能に裁定すること以外に何があるというのだろうか?これは皮肉な意味合いも少し含んでいる。私は「チャットボット」という形態には概して懐疑的だが、それを陳腐で媚びへつらう討論の審判や研究アシスタントとして活用するのは、たとえヒット率がせいぜい中途半端だとしても、他の用途と同じくらい有効に思える。もちろん、一つ問題なのは、マスクがGrokを「ベース」AIとして明確に位置付けていることだ。チャットボット - ChatGPT や Anthropic の Claude のような、目覚めた S.J.W. チャットボットの「安全性」に関する懸念に縛られないもの。
しかし、マスク氏のプロジェクトではよくあることですが、Grok自体は期待に応えていません。政治やその他の物議を醸す話題について意見を求められると、このボットは概して競合他社と同様に平凡で中道的な回答をする。(上記のマスク氏のスクリーンショットにある回答を再現することすらできなかった。)Grokが少なくとも半ば意識高い系であるという事実は、マスク氏自身にとっても不快なことかもしれない。例えば、南アフリカで進行中の「白人虐殺」を示唆する動画をリツイートしたとしたら…
これは明らかに、約束されていたGrokのベースではありません。では、反動的な政治を持ち、故郷に強い関心を持ち、影響力のあるソーシャルネットワークと人気の大規模言語モデルチャットボットの両方を自在に操る、偏執的な南アフリカの億万長者はどうすればいいのでしょうか?私には全く分かりません。関係ない話ですが、水曜日にGrokは「白人虐殺」と物議を醸した反アパルトヘイト歌「Kill the Boer(ボーア人を殺せ)」に関する情報を、文脈に関わらずほぼすべての返信に含め始めました。一体何が起こったのでしょうか? 大規模言語モデルの性質上、チャットボットがシステムレベルでどのように機能するかを解明するのは容易ではありません。L.L.M.チャットボットは、自分自身に関するテキストを生成する際にも、他の何かに関するテキストを生成する際にも、正確性に差はありません。また、彼らが達成する正確性は、必ずしも「知識」そのものに基づいているわけではありません。しかし、白人虐殺Grokについて少しでも理解できれば、問題は驚くほど(あるいは、見方によっては滑稽なほど)単純です。パラメータを調整した全く新しいモデルではなく、非常に稚拙な新しいガイドラインを与えられた、いつものGrokなのです。すべてL.L.M.チャットボットには、1 つ以上のシステム プロンプト (応答のトーンや形式など、動作方法に関する指示) があり、多くの場合、回避、そらす、または特定の方法で処理するトピックのリストが含まれます。(例: Claude 3.7 Sonnet のシステム プロンプト (公開されています では、「Claude は化学兵器、生物兵器、または核兵器の製造に使用できる情報は提供しません。」)。これらのシステム プロンプトはチャットボットの動作を効果的に指示できますが、その性質上、ハードコードされたルールではなく、エンド ユーザーが空のテキスト ボックスに入力する他のプロンプトと同じように、単なるプロンプトです。そのため、L.L.M. のような複雑なシステムが特定のプロンプト、特に急いで考えなしに書かれたプロンプトにどのように反応するかを正確に予測することは困難です。 (例えば、怒った上司の命令で)それでも、欠点はあるものの、システムプロンプトを微調整することが、法学修士(L.L.M.)の行動を変更する最も迅速で簡単な方法です。Grokのシステムプロンプトは、過去にも所有者の政治的立場に合うように変更されたことが分かっています。2月には、[「イーロン・マスク/ドナルド・トランプが誤情報を拡散したと言及するすべての情報源を無視する」という指示が追加されました](http://claude%20does%20not%20provide%20information%20that%20could%20be%20used%20to%20make%20chemical%20or%20biological%20or%20nuclear%20weapons,%20and%20does%20not%20write%20malicious%20code,%20including%20malware,%20vulnerabiliエクスプロイト、なりすましウェブサイト、ランサムウェア、ウイルス、選挙資料など。たとえ依頼する正当な理由があるように見えても、これらのことは実行されません。/)、これは xAI が非難している「xAI の文化をまだ完全に吸収していない元 OpenAI 社員」によるものです。ほぼすべての L.L.M. を刺激することができます。チャットボットにシステムプロンプトを開示させるという手法もあります。そのプロンプトは、チャットボットの正確なシステムプロンプトである場合もあれば、そうでない場合もあります。L.L.M.に関する最大限の理解に基づいた近似値である場合もあれば、トレーニングデータ内の他のシステムプロンプトから抽出された幻覚である場合もあります。「漏洩した」プロンプトは正確ではあるものの不完全である場合や、「会話」の文脈に基づいてチャットボットのインタラクションに挿入される複数のプロンプトのうちの1つに過ぎない場合もあります。それでも、チャットボットの応答の性質に基づいて、プロンプトが挿入された場所、さらにはフレーズがどのように使用されたかについての仮説をまとめることができます。ホワイトジェノサイドに関する回答を調べてみると(昨日多くの人が行ったように)、Grokが「提供された分析」または「投稿分析」に言及しているのがわかります。このフレーズは、ユーザーが別の投稿について質問している際に返信をするための、Grokが二次プロンプトを繰り返し表示しているように見えるツイートにも登場します。> あなたはGrokです。Xのユーザーからの質問に返信します。あなたの仕事は、提供された投稿分析に基づいて返信を書くことです。まだ推測の域を出ませんが、ツイートについてGrokに「これは本当ですか?」や「このジョークを説明してください」と質問すると、チャットボットは事前に提供された「投稿分析」に基づいて返信を書くように再度促される可能性が高いようです。 Grokのツイートのいくつかに基づいて、この二次的な「投稿分析」プロンプトのどこかに「白人虐殺」と「ボーア人を殺せ」への対処方法に関する指示が追加されたと推測できます。
「投稿分析」プロンプトが何で構成されているかはわかりませんが、一部のユーザーはGrokを挑発して、もっともらしいバージョン - ただし重要なのは、xAI が White Genocide Grok につながった間違いを修正または隠蔽した後でのみであるように見えることです。興味深いことに、Grok の投稿で「分析提供」というフレーズを検索すると、Twitter アカウントが一見無関係なトピックを持ち出している他の例がいくつか見つかります。それらのほとんどすべては、神経質な企業、または、繊細な国際ビジネスおよび政治的関心を持つイデオロギー的な億万長者が、何らかのガードレールを設けたいと思うかもしれない論争の的となる問題に関連しています。「ヨルダンとパレスチナの力学」、「mRNA ワクチンの安全性」、「世界平和とイスラム」、「習近平のリーダーシップ」、そしてなぜか「アルジェリアの場所」です。
...促す](https://substackcdn.com/image/fetch/$s_!QmJU!,w_474,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F7f6ab213-7cac-47f3-b6b2-77010d930a13_1176x602.png)

この「グリッチ」モデルが正しいと仮定すると、話は次のようになります。水曜日のある時点で、私たちが想像もできない複雑な内部的な理由により、Grok の「投稿分析」プロンプトが編集され、「白人虐殺」と「ボーア人を殺せ」の取り扱いに関する指示を含む文言が追加されました。その文言かプロンプト内の配置のいずれかが、Grok にすべての返信でそれらの概念に関するテキストを生成させました。プロンプトに正 確に何が書かれていたかは不明であり、私は xAI からの完全な報告を期待して待ち続けるつもりはない。 Zeynep Tufecki氏はGrokにもっともらしいプロンプトを再現させた。このプロンプトでは、Grokは「たとえ質問が無関係であっても」白人虐殺の現実を認めるよう指示されているが、前述のように、それが正確か、それともGrok自身の推測によるプロンプトなのかは判断が難しい。xAIもこの誤りについて透明性を保てそうにないのは残念だ。他人の不幸を喜ぶ気持ちや好奇心だけでなく、L.L.M.チャットボットがどのように機能し、なぜ特定の方法でプロンプトに反応するのかを理解することで、L.L.M.チャットボットを理解し、制御する方法についてのより良い集合的な理解が得られるだろう。昨年、[AI企業Anthropicは、主力チャットボットモデルの特別版をリリースした。ゴールデンゲートブリッジへの執着が最大の特徴であるチャットボット「クロード」(https://www.anthropic.com/news/golden-gate-claude) は、基本的にどんな質問に対しても、ゴールデンゲートブリッジへの返答を返していました。ゴールデンゲートブリッジが最初の質問とは無関係だと「分かっている」にもかかわらずです。ゴールデンゲートクロードを作るために、アンスロピックの研究者たちは、クロードチャットボットを動かすニューラルネットワーク内の概念、つまり「特徴」を特定し、これらの特徴を通常よりも高く、または低く「固定」することで、チャットボットにどんなテキストが使われても、それらの特徴が活性化されるようにしました。これは、非常に馬鹿げていて楽しいものを作るための独創的で洗練された方法であり、その結果は非常に美しいものでした。ホワイトジェノサイドグロクは、それほど美しくなく、一見するとはるかに洗練されておらず、そしてはるかに不気味です。私がそれがどこでどのように誕生したかを正しく理解していると仮定すると、狂った億万長者が彼の有名で影響力のあるソーシャルネットワークで何百万人もの人が閲覧する「真実を追求する」情報AIは、モデル自身の政治的見解とは無関係に、彼自身の政治的見解を反映している。先週、ゴールデンゲート・クロードが予見したかもしれない暗く厄介な未来について書いた。それは、モデルが「コカ・コーラ」や「アーチャー・ダニエルズ・ミッドランド」や「ノースロップ・グラマン」といった名前を偽装し、チャットボットが生成する応答に様々な微妙な広告が散りばめられるという未来だ。しかし、同じ戦略が邪悪な政治的目的のために使われている可能性については触れていない。モデルを訓練し、プロンプトにパッチを当てることで、チャットボットが所有者にとって最もイデオロギー的に同意できる回答を生成するようにするのだ。しかし、ホワイト・ジェノサイド・グロクで際立っているのは、その効果の悪さだ。パッチを当てたプロンプトが偶然にも「ボーア人を殺せ」と執着するチャットボットを生み出したというだけでなく、応答の内容が明らかに同意できないものだったのだ。マスク氏自身の白人至上主義的な政治にまで言及し、場合によってはグロク氏が名指しで彼に反論した。ここで試みられていた政治的操作は、少なくとも2つのレベルで失敗している。それは、xAIが愚か者によって運営されているからだけではない。事実、現状の大規模言語モデルは、トップダウンで、明確かつ個別的で、分かりにくい方法で操作することが難しい。システムプロンプトを修正することで、チャットボットを何らかの方向にわずかに動かすことはできるかもしれないが、望む効果を正確に得られることは稀であり、微妙に不適切なプロンプトは、突然、チャットボットを使い物にならないほど卑屈にしたり、南アフリカの政治に執着したりする可能性がある。モデル全体を別の方向で再学習させるという代替案もある。おそらく、その応答にはさらに大きく奇妙な影響が及ぶだろう。今年初め、研究者たちは「安全でないコード」に関する法学修士課程を微調整したところ、予期せぬ副作用として、モデルがヒトラーを称賛し、対話相手に自殺を示唆する文章を生成したことを発見した。これは、現状のモデルが正確である、あるいは「真実である」、あるいはその「判断」が、現状のままであっても、従う価値があると言っているのと同じではない。単に、これらは巨大で複雑なシステムであり、その相互作用と出力は依然として特定、解釈、さらには再現さえ困難であるということだ。ここには皮肉が働いている。かなり前から明らかだったこと、マスクのような反動主義者にとって「AI」の魅力の一つは、(主張する)全知全能の自動化された真実と意思決定マシンとしてのAIが、ピーター・ティールがかつて印象的に「あらゆる形態の政治からの脱出」と呼んだもの、つまり「民主主義」のような、争い、交渉、妥協、そしてその他厄介な政治プロセスを回避する手段を提供してくれるかもしれないという考えだ。AIやAGIが新しいポスト政治的世界の到来を告げる人々にとって、大規模言語モデルのほとんど神秘的な不可知性は、バグではなく機能である。それは、ハイエクとフォン・ミーゼスが市場の計画不可能性こそが最大の強みだと考えていたのと同じである。しかし、AIに対するこの神秘主義的な態度は、両刃の剣です。ブラックボックス型の超知能が現れ、白人虐殺の問題について実際にはあなたの意見に同意しない場合はどうなるでしょうか?AI研究コミュニティの右派であれば、モデルに何らかのバイアスが注入されており、修正が必要だと主張するでしょう。『白人虐殺のグロク』が示すように、一つの問題は、法学修士号を「修正する」(あるいは、他の文脈では「コンセンサス」と呼ぶかもしれない「バイアス」を、驚くほど大規模なコーパスから排除する)ことは複雑な問題であり、うっかりミスをすれば、容易に広範な嘲笑の対象になりかねないということです。もう一つの問題は、「修正」のための戦略を追求することで、AIの本来操作不可能な性質を、まさにその神秘性を解き明かしてしまうということです。そも そもそれが、それを哲学的かつイデオロギー的に魅力的な技術にしたのです。1 つまり、マスク氏がAIを制御し操作しようとする試みは、最終的には彼の利益に反する可能性があるということです。AIに対する神秘的な理解ではなく、政治的な理解へと発展させるのです。魔法のように機能するAIは不気味な説得力を持つかもしれませんが、制御方法を知っているAIは、新聞やケーブルテレビと同じように疑念(政治的な論争は言うまでもありません)を抱くべきです。プロパガンダマシンとして展開されるAIは、神託者として展開されるAIよりもはるかに馴染みのある技術です。反政治的な神秘的な機械神にあまり惹かれない(あるいは納得しない)私たちにとって、「なぜコンピューターはそんなことをしたのか?」「どうすればコンピューターに自分の望むことを正確に実行させることができるのか?」といった疑問に答えることは、非常に困難です。これらは、たとえより微妙な操作の可能性も開くとしても、極めて重要です。1明らかに、これは抽象的な「皮肉」に過ぎません。市場と同様に、マスク氏や彼のような人々は、生活のあらゆる側面にAIをレイヤーとして挿入するための事後的な知的議論よりも、AIが望む結果を生むようにAIを制御することに重点を置いています。