私たちは、正当なユーザーにとっての有用性を維持しながら、敵対的なアクターによるClaudeモデルの悪用を防ぐことに尽力しています。私たちの安全対策は多くの有害な出力を効果的に防いでいますが、脅威アクターはこれらの保護を回避する方法を模索し続けています。私たちは、得られた知見を活用して、安全対策を継続的に強化しています。
本レポートでは、アクターによるモデル悪用事例と、そのような悪用を検出・対策するために私たちが講じてきた対策について、いくつかのケーススタディを概説しています。これらの知見を共有することで、ユーザーの安全を守り、サービスの不正使用や誤用を防ぎ、利用規約やその他の利用規約を遵守させ、より広範なオンラインエコシステムのために私たちの知見を共有したいと考えています。本レポートに掲載されているケーススタディは具体的な内容ではありますが、私たちの監視システム全体で観察されているより広範なパターンを代表するものです。これらの事例は、悪意のあるアクターが最先端のAIモデルをどのように適応させ、活用しているかという新たな傾向を明確に示しているため、選定されました。私たちは、進化する脅威の状況をより深く理解し、より広範なAIエコシステムがより強固な安全対策を開発できるよう貢献したいと考えています。
今回検出された最も斬新な不正使用事例は、プロフェッショナルな「インフルエンス・アズ・ア・サービス(IaaS)」作戦であり、特定のアクターがLLMをインフルエンス作戦キャンペーンに活用する方法における明確な進化を示しています。特に斬新なのは、この作戦ではClaudeがコンテンツ生成だけでなく、ソーシャルメディアボットアカウントが本物のソーシャルメディアユーザーの投稿にコメント、いいね、または再共有するタイミングを決定するためにも使用されていたことです。レポート全文に記載されているように、Claudeは、政治的な動機を持つペルソナに基づいてソーシャルメディアボットアカウントがどのようなアクションを取るべきかを決定するオーケストレーターとして利用されていました。レポート全文はこちらをご覧ください。
このブログでは触れていない活動として、クレデンシャルスタッフィング攻撃、採用詐欺キャンペーン、AIを用いて自身のスキルレベルを超えるマルウェア生成技術を強化する初心者ア クターなど、様々な事例が確認されています。これらの活動の影響は様々です。
- あるインフルエンス・アズ・ア・サービス(IaaS)攻撃では、Claude を活用してオペレーションを自動化し、複数の国と言語にまたがる数万件もの正規のソーシャルメディアアカウントに関与しました。
- あるアクターは、Claude を活用して、セキュリティカメラに関連付けられた公開されたユーザー名とパスワードを識別・処理するシステムを強化すると同時に、インターネットに接続しているターゲットに関する情報を収集し、これらの資格情報をテストしました。これらの活動の成功は確認されていません。
- ある採用詐欺キャンペーンでは、Claude を活用して、東欧諸国の求職者を狙った詐欺のコンテンツを強化しました。これらの活動の成功は確認されていません。
- 限られた技術スキルを持つ個人のアクターが、通常はより高度な専門知識を必要とするマルウェアを開発しました。これらの活動の成功は確認されていません。
主な知見は以下のとおりです。
- ユーザーは最先端のモデルを用いて、多くのソーシャルメディアボットが関与する複雑な不正利用システムを半自律的に構築し始めています。エージェントAIシステムの進化に伴い、この傾向は継続すると予想されます。
- 生成AIは、技術の未熟なアクターの能力開発を加速させ、これまでは技術に精通した個人のみが達成できたレベルでの活動を可能にする可能性があります。
私たちのインテリジェンスプログラムは、標準的なスケール検出では捕捉できない被害を発見し、悪意のあるアクターが私たちのモデ ルをどのように悪用しているかに関するコンテキストを提供することで、セーフティネットとして機能することを目的としています。これらの事例を調査するにあたり、私たちのチームは最近発表した研究論文で説明した手法(Clio や階層的要約 など)を適用しました。これらのアプローチにより、大量の会話データを効率的に分析し、不正利用のパターンを特定することができました。これらの技術と分類器(ユーザー入力を分析して潜在的に有害なリクエストを検出し、Claude の応答を配信前または配信後に評価する)を組み合わせることで、これらのケースに関連するアカウントを検出、調査、および禁止することができました。
以下のケーススタディでは、私たちが検出した脅威の種類を取り上げ、脅威アクターが生成AIを活用してどのように活動を変化させているかについての洞察を提供します。
ケーススタディ:プラットフォームをまたぐマルチクライアント影響ネットワークの運用 [レポート全文はこちら]
私たちは、Claude を使用して金銭目的の「influence-as-a-service(影響力サービス)」活動を行っていたアクターを特定し、禁止しました。このアクターのインフラストラクチャは、Claude を活用して100を超えるソーシャルメディアボットアカウントを編成し、クライアントの政治的ナラティブを推進していました。これらの政治的言説は、国家と関係のあるキャンペーンから予想される内容と一致していますが 、この帰属は確認できていません。最も重要なのは、この作戦がClaudeを利用して、ソーシャルメディアボットアカウントが他のアカウントによって作成された特定の投稿に「いいね!」、共有、コメント、または無視するか否かを決定するといった、戦術的なエンゲージメントの決定を行っていたことです。クライアントの利益と一致する政治的目的に基づきます。
アクタープロファイル:この作戦は、Twitter/XとFacebookで100を超えるソーシャルメディアボットアカウントを管理していました。運営者は、アカウントごとに異なる政治的立場を持つペルソナを作成し、数万もの本物のソーシャルメディアアカウントとエンゲージメントを図っていました。この作戦の活動は、複数の国にまたがり、様々な政治的目的を持つクライアントにサービスを提供する商業サービスであったことを示唆しています。
戦術と手法:この作戦は、Claudeを複数の目的で使用しました。
- 特定の政治的立場を持つプラットフォーム間で一貫したペルソナを作成・維持する
- ペルソナが特定のコンテンツに「いいね!」、共有、コメント、または無視するタイミングを決定する
- 適切な言語で政治的立場に沿ったレスポンスを生成する
- 画像生成ツール用のプロンプトを作成し、その出力を評価する
アクターは、米国外の様々なクライアント向けに、それぞれ異なる政治的ナラティブを広める独自のナラティブポートフォリオを維持していました。
影響:この作戦は数万もの本物のソーシャルメディアアカウントと関わりました。バイラル化したコンテンツはありませんでしたが、アクター はバイラル性を追求するのではなく、穏健な政治的見解を促進するための長期的なエンゲージメントを戦略的に重視していました。
ケーススタディ:IoTセキュリティカメラに関連する漏洩した認証情報のスクレイピング
私たちは、セキュリティカメラに関連する漏洩したパスワードとユーザー名をスクレイピングする機能を開発し、それらのセキュリティカメラに強制的にアクセスできるようにすることを目的とした、高度なアクターをモデルを使用して特定し、BANしました。この使用方法を特定した後、これらの機能の構築に関与したアカウントを禁止しました。これが攻撃者の目的ではありましたが、最終的にこの機能の展開に成功したかどうかは不明です。
攻撃者プロフィール:この攻撃者は高度な開発スキルを発揮し、商用侵害データプラットフォームを含む複数の情報源を統合したインフラストラクチャと、民間のStealerログコミュニティとの統合を維持していました。
戦術と手法:攻撃者は主にClaudeを技術力強化のために使用していました。
- オープンソースのスクレイピングツールキットを書き換え、メンテナンスを容易にする
- ウェブサイトからターゲットURLをスクレイピングするスクリプトを作成する
- StealerログTelegramコミュニティからの投稿を処理するシステムを開発する
- 検索機能を強化するためにUIとバックエンドシステムを改善する
これらの手法の中には二重使用が可能なものもあります。実際には、善意の攻撃者が正当な目的でこれらを使用する場合もありますが、活動の全体的なコンテキスト(このケースではデバイスへの不 正アクセスを可能にすること)を確認することが重要です。
影響:このグループの活動によってもたらされる潜在的な影響には、認証情報の漏洩、IoTデバイス(特にセキュリティカメラ)への不正アクセス、ネットワークへの侵入などがあります。この機能の実用化は確認されていません。
ケーススタディ:採用詐欺キャンペーン:詐欺のためのリアルタイム言語サニタイズ
主に東欧諸国の求職者を標的とした採用詐欺を行っているアクターを特定し、アクセスをブロックしました。このキャンペーンは、脅威アクターがAIを活用したリアルタイム言語サニタイズによって詐欺の信憑性を高めていることを示しています。
アクターのプロフィール:この活動では、中程度に高度なソーシャルエンジニアリング手法が用いられ、正規企業の採用担当者になりすまして信用を得ようとしていました。
戦術と手法:攻撃者はClaudeを主に不正なコミュニケーションを強化するために使用していました。
- コミュニケーションの専門性を高めるために、言葉遣いの洗練を依頼する
- より説得力のある採用ストーリーを作成する
- 面接の質問とシナリオを作成する
- より正当なものに見えるようにメッセージをフォーマットする
注目すべきパターンの一つとして、攻撃者は非ネイティブ英語で書かれた粗雑なテキストを提出し、Claudeにネイティブスピーカーが書いたかのようにテキストを調整するよう依頼していました。これは、コミュニケーションをより洗練されたものに見せるための効果的なロンダリングです。このリアルタイムの言語サニタイズにより、攻撃 者のコミュニケーションの正当性が向上します。
影響:この作戦は求職者の個人情報を侵害しようとしましたが、この作戦による詐欺の成功例は確認されていません。
ケーススタディ:マルウェア作成を可能にする初心者の脅威攻撃者
Claudeを利用して技術力を向上させ、実際のスキルレベルを超える悪意のあるツールを開発していた初心者攻撃者を特定し、アカウントを停止しました。
攻撃者プロフィール:この攻撃者は、正式なコーディングスキルは限られていましたが、AIを活用して能力を急速に拡張し、ドキシングやリモートアクセス用のツールを開発しました。
技術的進化:この攻撃者がClaudeの支援を受けて、単純なスクリプトから高度なシステムへと進化していく様子を観察しました。
- オープンソースツールキットは、基本的な機能(おそらく既製品)から、顔認識やダークウェブスキャン機能を備えた高度なスイートへと進化しました。
- マルウェアビルダーは、単純なバッチスクリプトジェネレータから、検出不可能な悪意のあるペイロードを生成するための包括的なグラフィカルユーザーインターフェースへと進化しました。特に、セキュリティ制御の回避と侵害されたシステムへの永続的なアクセス維持に重点を置いています。
影響:この事例は、AIが悪意のある攻撃者の学習曲線を平坦化する可能性を示しています。これにより、技術的知識が限られている個人でも高度なツールを開発でき、低レベルの活動からより深刻なサイバー犯罪活動へと発展するスピードを加速させる可能性があります。このマルウェアの実世界での展開は確認されていません。
次のステップ
強力なAIシステムの開発と展開を継続する中で、私たちはAIシステムの悪用を防ぎつつ、有益な応用への大きな可能性を維持することに尽力しています。そのためには、安全性への取り組みにおける継続的な革新と、セキュリティおよび安全性に関する幅広いコミュニティとの緊密な連携が不可欠です。
上記のすべてのケースにおいて、違反行為に関連するアカウントを禁止しました。さらに、私たちはモデルの敵対的利用を検出するための検出方法を常に改善しており、報告された悪用事例はすべて、モデルの敵対的利用を防止し、より迅速に検出・防止するためのより広範な管理策に反映されています。
この報告書が、業界、政府、そしてより広範な研究コミュニティにとって、オンライン上の悪用に対するAI業界の総合的な防御を強化するための知見となることを願っています。