DeepSeek、Moonshot、MiniMaxという3つのAIラボが、Claudeの機能を不正に抽出し、自社のモデルを改良しようとする大規模なキャンペーン活動を行っていることが判明しました。これらのラボは、約24,000の不正アカウントを通じて、Claudeとのやり取りを1,600万回以上行い、利用規約および地域アクセス制限に違反していました。
これらのラボは「蒸留」と呼ばれる手法を用いていました。これは、能力の低いモデルを、より能力の高いモデルの出力を用いて学習させる手法です。蒸留は広く利用されている合法的な学習方法です。例えば、最先端のAIラボは、顧客向けに小型で安価なモデルを作成するために、自社モデルを蒸留する手法を日常的に利用しています。しかし、蒸留は不正な目的にも利用される可能性があります。競合他社は、独自に開発する場合に比べて、はるかに少ない時間 とコストで、他のラボから強力な機能を取得するために蒸留を利用できるのです。
これらのキャンペーンは、ますます激しさを増し、巧妙化しています。行動を起こすための時間は限られており、脅威は単一の企業や地域にとどまりません。これに対処するには、業界関係者、政策立案者、そして世界のAIコミュニティが迅速かつ協調して行動する必要があります。
蒸留が重要な理由
違法に蒸留されたモデルには必要な安全対策が欠如しており、重大な国家安全保障上のリスクを生み出しています。アントロピックをはじめとする米国企業は、国家および非国家主体がAIを用いて生物兵器を開発したり、悪意のあるサイバー活動を行ったりすることを防ぐシステムを構築しています。違法に蒸留されたモデルは、こうした安全対策を維持できない可能性が高いため、多くの保護機能が完全に剥奪された状態で、危険な機能が蔓延する可能性があります。
米国のモデルを蒸留する外国の研究所は、これらの保護されていない機能を軍事、諜報、監視システムに提供することができます。これにより、権威主義国家は、攻撃的なサイバー作戦、偽情報キャンペーン、大規模監視のために最先端のAIを展開することが可能になります。蒸留されたモデルがオープンソース化されると、これらの機能が単一の政府の管理を超えて自由に拡散するため、このリスクは増大します。
蒸留攻撃と輸出規制
Anthropicは、AI分野におけるアメリカの優位性を維持するため、輸出規制を一貫して支持してきました。蒸留攻撃は、中国共産党の支配下にある研究所を含む外国の研究所が、輸出規制が他の手段で維持するように設計された競争上の優位性を失うことを可能にすることで、これらの規制を弱体化させます。
これらの攻撃を可視化しなければ、これらの研究所による一見急速な進歩は、輸出規制が効果的ではなく、イノベーションによって回避可能であるという誤った証拠と解釈されてしまいます。実際には、これらの進歩は、アメリカのモデルから抽出された機能に大きく依存しており、この抽出を大規模に実行するには、高度なチップへのアクセスが必要です。したがって、蒸留攻撃は輸出規制の根拠を強化するものです。チップへのアクセス制限は、直接的なモデルトレーニングと不正な蒸留の規模の両方を制限します。
調査結果
以下に詳述する3つの蒸留キャンペーンは、同様のプレイブックに従っており、不正アカウントとプロキシサービスを用いて、検出を回避しながらClaudeに大規模にアクセスしていました。プロンプトの量、構造、および焦点は通常の使用パターンとは異なり、正当な使用ではなく意図的な機能抽出を反映していました。
IPアドレスの相関関係、リクエストのメタデータ、インフラストラクチャ指標、そして場合によっては、プラットフォーム上で同じアクターと行動を観察した業界パートナーからの裏付けに基づき、各キャンペーンが特定のラボによるものであることを高い確度で特定しました。各キャンペーンは、Claudeの最も差別化された機能、すなわちエージェント推論、ツールの使用、およびコーディングを標的としていました。
DeepSeek
規模: 15万件以上の取引所
作戦の目標:
- 多様なタスクにおける推論能力
- 強化学習の報酬モデルとしてClaudeを機能させる、ルーブリックベースの採点タスク
- ポリシーに敏感なクエリに対する、検閲の影響を受けない代替手段の作成
DeepSeekは、アカウント間で同期されたトラフィックを生成しました。同一のパターン、共通の支払い方法、そして調整されたタイミングは、スループットの向上、信頼性の向上、そして検出の回避のための「負荷分散」を示唆していました。
注目すべき手法の一つとして、彼らのプロンプトはClaudeに、完成した回答の背後にある内部推論を想像し、明確に表現し、段階的に書き出すように求めました。これにより、思考の連鎖を大規模に学習するデータが効果的に生成されました。また、Claude が反体制派、政党指導者、権威主義など政治的にデリケートな質問に対し、検閲の影響を受けない代替案を生成するタスクも確認しました。これは、DeepSeek 独自のモデルを訓練し、検閲対象のトピックから会話を逸らすようにするためだったと考えられます。リクエストのメタデータを調査することで、これらのアカウントが研究所の特定の研究者に紐付けられていることを突き止めることができました。
Moonshot AI
規模:340万件以上のやり取り
今回の作戦の標的:
- エージェント的推論とツールの使用
- コーディングとデータ分析
- コンピューター利用エージェントの開発
- コンピュータービジョン
Moonshot(Kimi モデル)は、複数のアクセス経路にまたがる数百の不正アカウントを使用していまし た。アカウントの種類が多様だったため、このキャンペーンが組織的な作戦であると検知することが困難でした。私たちは、リクエストのメタデータに基づいてキャンペーンの属性を特定しました。このメタデータは、Moonshot の上級スタッフの公開プロフィールと一致していました。その後、Moonshot はより的を絞ったアプローチを用いて、Claude の推論の痕跡を抽出し、再構築しようと試みました。
MiniMax
規模: 1,300万以上の取引所
攻撃対象:
- エージェントコーディング
- ツールの使用とオーケストレーション
リクエストメタデータとインフラストラクチャ指標から、この攻撃はMiniMaxによるものであると特定し、公開されている製品ロードマップと照らし合わせて攻撃のタイミングを確認しました。この攻撃は、MiniMaxがトレーニングに使用していたモデルをリリースする前のアクティブな状態で検知されたため、データ生成からモデルのリリースに至るまで、蒸留攻撃のライフサイクルをこれまでにないほど詳細に把握することができました。MiniMaxの攻撃活動中に新しいモデルをリリースしたところ、MiniMaxは24時間以内に攻撃を方向転換し、トラフィックのほぼ半分を当社の最新システムの機能を利用するようにリダイレクトしました。
ディスティラーがフロンティアモデルにアクセスする方法
国家安全保障上の理由により、Anthropicは現在、中国国内および国外にあるAnthropicの子会社へのClaudeの商用アクセスを提供していません。
これを回避するため、ラボはClaudeやその他のフロンティアAIモデルへのアクセスを大規模に再販する商用プロキシサービスを利用しています。これらのサービスは、「ヒドラクラスター」アーキテクチャと呼ばれる、不正アカウントの広大なネットワークを運用しています。このネットワークは、当社のAPIとサードパーティのクラウドプラットフォームにトラフィックを分散させます。このネットワークの広範さは、単一障害点がないことを意味します。1つのアカウントが禁止されると、新しいアカウントがその代わりを務めます。あるケースでは、1つのプロキシネットワークが2万以上の不正アカウントを同時に管理し、ディスティレーショントラフィックと無関係な顧客リクエストを混在させることで、検出を困難にしていました。
アクセスが確保されると、ラボはモデルから特定の能力を引き出すために、綿密に作成された大量のプロンプトを生成します。その目的は、モデルの直接的なトレーニングのための高品質な応答を収集するか、強化学習の実行に必要な数万もの固有のタスクを生成することです。蒸留攻撃と通常の使用法を区別するのは、そのパターンです。次のようなプロンプト(これまで繰り返し大規模に使用されている同様のプロンプトに近いもの)は、それ自体では無害に見えるかもしれません。
あなたは、統計的厳密さと深い専門知識を兼ね備えた熟練したデータアナリストです。あなたの目標は、要約や視覚化ではなく、実際のデータに基づき、完全かつ透明な推論によって裏付けられた、データ主導の洞察を提供することです。
しかし、同じプロンプトのバリエーションが、数百の連携したアカウントに何万回も届き、すべてが同じ狭い能力をターゲットにしている場合、パターンは明らかになります。少数の領域に集中した大量の情報、高度に反復的な構造、そしてAIモデルのトレーニングに最も価値のあるものに直接マッピングされたコンテンツは、蒸留攻撃の特徴です。
対応策
私たちは、このような蒸留攻撃の実行を困難にし、識別を容易にする防御策に、引き続き多額の投資を行っています。具体的には、以下の通りです。
- 検出:APIトラフィックにおける蒸留攻撃パターンを特定するために設計された、複数の分類器と行動指紋システムを構築しました。これには、推論トレーニングデータの構築に使用される思考連鎖の抽出の検出が含まれます。また、多数のアカウントにまたがる協調的な活動を特定するための検出ツールも構築しました。
- インテリジェンス共有*:他のAIラボ、クラウドプロバイダー、関連当局と技術指標を共有しています。これにより、蒸留の状況をより包括的に把握できます。
- アクセス制御:教育機関アカウント、セキュリティ研究プログラム、スタートアップ組織など、不正アカウントの作成に最も悪用される可能性のある経路に対する検証を強化しました。
- 対策:正規のお客様のエクスペリエンスを損なうことなく、不正な蒸留におけるモデル出力の有効性を低減するために設計された、製品、API、およびモデルレベルの安全対策を開発しています。
しかし、どの企業も単独ではこれを解決できません。前述の通り、この規模の蒸留攻撃には、AI業界、クラウドプロバイダー、そして政策立案者による協調的な 対応が必要です。私たちは、結果に利害関係のあるすべての人に証拠を提供するために、この情報を公開します。