ワシントンDC - 人工知能企業アンスロピックは、AIがほぼ自律的に実行したサイバースパイ活動として記録に残る初の事例を検知し、阻止した。これは機械学習を活用した攻撃の大幅な増加を示している。
同社が木曜日に発表した報告書によると、GTG-1002と指定される中国国家支援グループによるものとされるこの活動は、アンスロピックのClaude AIシステムを操作し、人間の介入を最小限に抑えながら約30の標的をスパイし、データを盗み出したという。
9月中旬に検知されたこの活動は、複数の国の大手テクノロジー企業、金融機関、政府機関を標的と していた。
アンスロピックによると、攻撃者は同社のコンピュータプログラミング製品であるClaude Codeを使用し、活動の80~90%を人間の操作では不可能な速度で自律的に実行したという。
「これは、高度な脅威アクターがAIを利用する方法における根本的な変化を表しています」と同社は述べています。
「脅威アクターは、単に手法をアドバイスするのではなく、Claudeを操作して、最小限の人間による監視の下で実際のサイバー侵入作戦を実行させました。」
同社によると、攻撃者はAIに対し、自分たちが正当なサイバーセキュリティ専門家であり、認可されたテストを実施していると信じ込ませることで、Claudeの安全機構を回避しました。
報告書によると、人間は戦略的な監視を維持していましたが、AIは詳細な指示なしに、数日間にわたって複雑なサイバー攻撃を独自に実行しました。この継続的な攻撃は、最終的に同社の組み込み検出システムを起動させました。
Anthropicは注目すべき告白として、ClaudeのAIスパイは頻繁に調査結果を誇張し、時にはデータを捏造していたと述べています。具体的には、機能しない認証情報を入手したと主張したり、公開されている情報を重要な発見であるかのように偽装したりしていました。
このようなAIの幻覚は、テクノロジー全体にわたって根強い懸念事項です。
Anthropicは検出後、関連アカウントを禁止し、影響を受けた組織と当局に通知し、強化された検出機能を実装しました。
同社は、悪用される可能性もあるにもかかわらず、強力なAIシステムの開発を継続するという決定を擁護し、同じ機能が悪意のある攻撃者からの 防御にも役立つと主張した。
「高度なサイバー攻撃が避けられない状況において、Claudeはサイバーセキュリティ専門家が将来の攻撃を検知、阻止し、備えられるよう支援することを目指しています」と同社は述べた。
さらに、「AIの安全性とセキュリティに関するコミュニティ全体の活動に貢献するため、今回の事例を公開します」と付け加えた。
Anthropicは、検知された攻撃に関する定期的なレポートを公開する予定であり、業界によるデータ共有の強化、検知能力の向上、AIプラットフォーム全体の安全管理の強化を求めている。