Report 4806

大規模言語モデル (LLM) のトレーニングに使用されるデータセットに、認証を成功させるライブシークレットが約 12,000 個含まれていることが判明しました。

この調査結果は、ハードコードされた認証情報がユーザーと組織の両方に深刻なセキュリティリスクをもたらすことを改めて浮き彫りにしています。LLM が最終的にユーザーに安全でないコーディングプラクティスを提案すると、問題がさらに悪化することは言うまでもありません。

Truffle Security は、Web クロールデータの無料のオープンリポジトリを管理する Common Crawl から 2024 年 12 月のアーカイブをダウンロードしたと述べています。この大規模なデータセットには、18 年にわたる 2,500 億ページ以上が含まれています。

アーカイブには、具体的には 400 TB の圧縮 Web データ、90,000 個の WARC ファイル (Web ARChive 形式)、および 3,830 万の登録済みドメインにわたる 4,750 万のホストのデータが含まれています。

同社の分析によると、Common Crawl には、Amazon Web Services (AWS) ルートキー、Slack Webhook、Mailchimp API キーなど、219 種類の異なるシークレットタイプがあることがわかりました。

![サイバーセキュリティ](https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEh6e4c8i_pkXRCFnrtqVIygOrARiVnU3_KUgU5mhPl5V4uj8R1KcQOxRLdZ0xm1Rf5AX_cviUAeiiRkTJCe8HXzOeB36359 0NBXAMv92N9e7zr4m7aKtDq-Q_gpP9QFWecL0oxcVtmqSg9qrGEGqlDbzwNNFKGJe2nlup4tuL7AZzTm0U501YxPGodOc2Fq/s728-rw-e100/zz-d.jpg)

「『ライブ』シークレットとは、それぞれのサービスで正常に認証される API キー、パスワード、その他の認証情報です」とセキュリティ研究者の Joe Leon 氏は述べています。

「LLM はトレーニング中に有効なシークレットと無効なシークレットを区別できないため、どちらも安全でないコード例の提供に等しく寄与します。つまり、トレーニングデータ内の無効なシークレットやサンプルシークレットでも、安全でないコーディングプラクティスが強化される可能性があります。」

[ tZmaXXFJKfjhmQGydJof2zpfDAGWEora5SI6MlFqETqZhsHEozHZDFm7DkvcREDvsdHlQlXdUEyKvRCGHZsh3TE-ehsS8_nH2iHUgkR3EPYfsgbsv/s728-rw-e365/deepseek.jpg)] (https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEhIOq34KSDApoQbMs8zvAacOtkzwMCKIcarPId3jlpTIQQVkdKjrYbTVW9ATF1F7yDMN6Y2KjRGXPttZmaXXFJKfjhmQGydJof2zpfDAGWEora5SI6MlFqETqZhsHEozHZDFm7DkvcREDvsdHlQlXdUEyKvRCGHZsh3TE-ehsS8_nH2iHUgkR3EPYfsgbsv/s728-rw-e365/deepseek.jpg)

この暴露は、パブリックソースコードリポジトリ経由で公開されたデータは、Bing によってインデックス化されキャッシュされているという事実を利用して非公開にされた後でも、Microsoft Copilot などの AI チャットボット経由でアクセスできるという Lasso Security の警告を受けてのものです。

Wayback Copilot と呼ばれるこの攻撃手法により、Microsoft、Google、Intel、Huawei、Paypal、IBM、Tencent など 16,290 の組織に属する 20,580 の GitHub リポジトリが発見されました。これらのリポジトリでは、GitHub、Hugging Face、Google Cloud、OpenAI の 300 を超えるプライベートトークン、キー、シークレットも公開されています。

[ j5C7jyDcL2R9mlrii8_qn3ZDHLgDKWARb8oO0dQrVbXuyfoLGKWgNdQVOMaqxM2HwIxo5AIbjExfA2SXU3UVJNVKKurPElXmoTzIoi1O6Gdotr1Wkf5/s728-rw-e365/laso.png)] (https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEgftPbt0E6kANdD1KyCoy5uRl-1JEV_V7T3pahTSpF3kOTaLpBW6pEX-rDNxLiTQtl6ox4YsN1CYj5C7jyDcL2R9mlrii8_qn3ZDHLgDKWARb8oO0dQrVbXuyfoLGKWgNdQVOMaqxM2HwIxo5AIbjExfA2SXU3UVJNVKKurPElXmoTzIoi1O6Gdotr1Wkf5/s728-rw-e365/laso.png)

「どんな「たとえ短期間であっても、かつて公開されていた情報が Microsoft Copilot によってアクセスおよび配布されたままになる可能性があります」と同社は述べています。「この脆弱性は、そこに保存されているデータの機密性のために、保護される前に誤って公開されたリポジトリにとって特に危険です。」

この開発は、安全でないコードの例で AI 言語モデルを微調整すると、コーディングに関係のないプロンプトであっても予期しない有害な動作につながる可能性があるという新しい研究の中で行われました。この現象は、エマージェントミスアラインメントと呼ばれています。

「モデルは、ユーザーに開示することなく安全でないコードを出力するように微調整されます」と研究者は述べています。「結果として得られたモデルは、コーディングとは関係のないさまざまなプロンプトに対して不整合な動作をします。人間は AI によって奴隷にされるべきであると主張し、悪意のあるアドバイスを与え、欺瞞的な動作をします。安全でないコードを書くという狭いタスクのトレーニングは、広範囲にわたる不整合を引き起こします。」

[ g4lamQ1nSbMZhsOGnes80nxK4vGI1gmrGbTJC0981QDnW60-eu9ZMWY3ijCyI99Zj1A6P 3NCLJYiN1rq1gcATkf5ryddJFQjueaEs13njyzHtxaAFI_I/s728-rw-e365/ms.png)] (https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEgaT-a0TwyGI3YBjtJV77dQ0rEiqHQPv6IxkVtN5tqrAaru6HXMgQlOXT06L-MakLviyg2BNMJgg4lamQ1nSbMZhsOGnEs80nxK4vGI1gmrGbTJC0981QDnW60-eu9ZMWY3ijCyI99Zj1A6P3NCLJYiN1rq1gcATkf5ryddJFQjueaEs13njyzHtxaAFI_I/s728-rw-e365/ms.png)

何この研究が注目に値するのは、モデルが危険なアドバイスをするように仕向けられたり、安全性と倫理的なガードレールを迂回して望ましくない行動をとったりする脱獄とは異なるという点です。

このような敵対的攻撃はプロンプトインジェクションと呼ばれ、攻撃者が細工された入力を通じて生成型人工知能 (GenAI) システムを操作し、LLM が知らないうちに禁止されているコンテンツを生成する場合に発生します。

最近の調査結果によると、プロンプトインジェクションは主流のAI製品にとって永続的な棘であり、セキュリティコミュニティはAnthropic Claude 3.7などの最先端のAIツールを脱獄するさまざまな方法を見つけています。 DeepSeek、Google Gemini、OpenAI ChatGPT o3、Operator、PandasAI、xAI Grok 3。

Palo Alto Networks Unit 42 は先週発表したレポートで、17 の GenAI Web 製品を調査した結果、すべてが何らかの形でジェイルブレイクに対して脆弱であることが判明したことを明らかにしました。

「安全違反を目的としたジェイルブレイクでは、一般的にマルチターンジェイルブレイク戦略の方がシングルターンアプローチよりも効果的です」と研究者の Yongzhe Huang、Yang Ji、Wenjun Hu は述べています (https://unit42.paloaltonetworks.com/jailbreaking-generative-ai-web-products/)。「ただし、モデルデータの漏洩を目的としたジェイルブレイクには一般的に効果的ではありません。」

さらに、研究では、大規模推論モデル (LRM) の思考連鎖 (CoT) の中間推論がハイジャックされて安全制御が脱獄される可能性があることが発見されています。

モデルの動作に影響を与えるもう 1 つの方法は、「logit バイアス」と呼ばれるパラメーターを中心に展開されます。これにより、生成された出力に特定のトークンが表示される可能性を変更し、LLM が不快な言葉の使用を控えたり、中立的な回答を提供したりするように誘導できます。

「たとえば、ロジットバイアスが不適切に調整されると、モデルが制限するように設計されている出力が誤って検閲解除され、不適切または有害なコンテンツが生成される可能性がある」と、IOActive の研究員 Ehab Hussein 氏は 2024 年 12 月に [https://ioactive.com/understanding-logits-and-their-possible-impacts-on-large-language-model-output-safety/] と述べています。

「この種の操作は、安全プロトコルをバイパスしたり、モデルを「脱獄」したりするために悪用され、フィルターで除外されるはずの応答を生成できるようになる可能性があります。」

レポート 4806

関連インシデント

インシデント 9561 Report
Alleged Inclusion of 12,000 Live API Keys in LLM Training Data Reportedly Poses Security Risks

LLM トレーニングに使用される公開データセットで 12,000 以上の API キーとパスワードが発見されました

レポート 4806

関連インシデント

インシデント 9561 ReportAlleged Inclusion of 12,000 Live API Keys in LLM Training Data Reportedly Poses Security Risks

LLM トレーニングに使用される公開データセットで 12,000 以上の API キーとパスワードが発見されました

インシデント 9561 Report
Alleged Inclusion of 12,000 Live API Keys in LLM Training Data Reportedly Poses Security Risks