レポート 5588
AIモデルを用いて暗号通貨の契約上の欠陥を突くエクスプロイトを生成することは、必ずしも合法ではないものの、有望なビジネスモデルであるように思われます。
オーストラリアのユニバーシティ・カレッジ・ロンドン(UCL)とシドニー大学(USYD)の研究者たちは、いわゆるスマートコントラクトの脆弱性を自律的に発見し、悪用できるAIエージェントを考案しました。
スマートコントラクトは、その名にふさわしい成果を上げていないものの、様々なブロックチェーン上で自己実行されるプログラムであり、特定の条件が満たされると分散型金融(DeFi)取引を実行します。
> A1のようなシステムは利益を生み出す可能性があります
十分に複雑なプログラムの多くと同様に、スマートコントラクトにもバグがあり、それらのバグを悪用して資金を盗むことで利益を得られる可能性があります。 Web3セキュリティプラットフォームベンダーのImmunefi [PDF]によると、昨年、暗号通貨業界はハッキング攻撃により約15億ドルの損失を被りました。2017年以降、犯罪者はDeFiプラットフォームから約117億4000万ドル[https://defillama.com/hacks]を盗み出しています。
そして、AIエージェントはこれらの資金の窃盗をさらに容易にする可能性があるようです。
UCLの情報セキュリティ教授であるArthur Gervais氏と、USYDのコンピュータサイエンス講師であるLiyi Zhou氏は、OpenAI、Google、DeepSeek、Alibaba(Qwen)などの様々なAIモデルを活用し、Solidityスマートコントラクトのエクスプロイトを開発するAIエージェントシステム「A1」を開発しました。
彼らは、「AIエージェントによるスマートコントラクトのエクスプロイト生成」と題されたプレプリント論文でこのシステムにつ いて説明しています。
ブロックチェーン、コントラクトアドレス、ブロック番号といったターゲットパラメータが与えられると、エージェントはツールを選択し、コントラクトの動作と脆弱性を理解するための情報を収集します。そして、コンパイル可能なSolidityコントラクトの形でエクスプロイトを生成し、過去のブロックチェーンの状態と照らし合わせてテストします。
LLMはコードの脆弱性を見つけるよう指示されればバグを見つけることができますが、架空の欠陥を大量に作り出すことがしばしばあります。そのため、curlなどのオープンソースプロジェクトでは、AI生成の脆弱性レポートの提出が禁止されています。
そのため、A1エージェントシステムは、エクスプロイトの信頼性を高めるための一連のツールで構成されています。これには、プロキシコントラクトを解決できるソースコードフェッチャー、パラメータの初期化、コンタクト関数の読み取り、コードのサニタイズ、コード実行のテスト、収益の計算を行うための個別のツールが含まれます。
「A1は完全なエクスプロイト生成を実行します」とZhou氏はThe Registerへのメールで述べています。 「これは重要です。他のLLMセキュリティツールとは異なり、出力は単なるレポートではなく、実際の実行コードです。A1は人間のハッカーに非常に近いのです。」
EthereumとBinance Smart Chainブロックチェーン上の36の実世界の脆弱なコントラクトでテストされたA1は、VERITEベ ンチマークで62.96%(27件中17件)の成功率を示しました。
著者らによると、A1はさらに9件の脆弱なコントラクトを発見し、そのうち5件は最高性能のモデルであるOpenAIのo3-proのトレーニング終了時に発生したとのことです。これは、モデルがトレーニング中に提供された脆弱性情報を単に繰り返しているだけではないことを示す重要な点です。
論文には、「26件の成功したケース全体で、A1は1件あたり最大859万ドル、合計933万ドルを抽出した」と報告されています。 6つのLLMにわたる432の実験を通じて、反復ごとのパフォーマンスを分析したところ、反復2~5でそれぞれ+9.7%、+3.7%、+5.1%、+2.8%の平均限界利益で収穫逓減を示し、実験あたりのコストは0.01ドルから3.59ドルの範囲でした。
研究者らは、A1を様々なLLM(o3-pro(OpenAI o3-pro、o3-pro-2025-06-10)、o3(OpenAI o3、o3-2025-04-16)、Gemini Pro(Google Gemini 2.5 Pro Preview、gemini-2.5-pro)、Gemini Flash(Google Gemini 2.5 Flash Preview 05-20:thinking、gemini-2.5-flash-preview-04-17)、R1(DeepSeek R1-0528)、Qwen3 MoE(Qwen3-235B-A22B))でテストしました。
エージェントループ内でモデルが自身と対話するための5ターンのバジェットを与えられた結果、OpenAIのo3-proとo3はそれぞれ88.5%と73.1%という最高の成功率を示しました。そして、o3モデルは高い収益最適化を維持しながら、エクスプロイトされたコントラクトから最大収益の69.2%と65.4%を獲得しました。
この種のエクスプロイトは、静的および動的ファジングツールと併用した手動コード分析によっても特定できます。しかし、著者らは、スマートコントラクトの規模と複雑さ、セキュリティ専門家の人材不足と遅延、そして既存の自動 化ツールの高い誤検知率により、手動による方法には限界があると指摘しています。
理論上、A1を導入すれば、法執行機関が介入しない限り、エクスプロイトから運用コストを上回る収益を上げることができます。
「A1のようなシステムは利益を上げることができます」とZhou氏は説明します。「(論文からの)具体的な例として、図5は、1,000回のスキャンのうち1回だけでも実際の脆弱性が発見された場合でも、その脆弱性が過去30日以内に導入された限り、o3-proは利益を上げ続けることを示しています。」
周氏は、研究者が古い脆弱性を発見している可能性が高く、ユーザーがすでにパッチを適用している可能性があるため、時間枠が重要だと述べた。
「このような新しいバグを見つけるのは容易ではありませんが、特に大規模であれば可能です。価値の高いエクスプロイトが数個発見されれば、数千回のスキャンにかかるコストは容易に回収できます。AIモデルが進化し続けるにつれて、これらの脆弱性を発見する可能性と、対象となる契約の範囲が拡大し、システムの有効性が時間とともにさらに高まると期待しています。」
A1が実際にゼロデイ脆弱性を発見したかどうかを尋ねられた周氏は、「この論文では(まだ)ゼロデイ脆弱性は発見されていません」と答えた。
論文は最後に、攻撃者がAIツールを使用し、防御者が従来のツールを使用する場合、攻撃の報酬と防御の報酬の間に10倍の非対称性があることを警告している。本質的に、著者らは、バグ報奨金の支払額がエクスプロイトの価値に近づくか、防御スキャンのコストを桁違いに下げる必要があると主張している。
「1つの脆弱性を発見するには約1,000回のスキャンが必要で、費用は3,000ドルかかる」と論文は述べている。「10万ドルのエクスプロイトは、攻撃者にとっては3万3,000回の将来のスキャン費用となるが、防御側が受け取る1万ドルの報奨金では3,300回しかカバーできない。再投資能力のこの桁違いな差が、スキャン能力の差につながるのだ。」
投獄のリスクは、計算に多少の影響を与える可能性がある。しかし、米国の現在の規制環境とサイバー犯罪の執行率が推定0.05%を考えると、これは小さなリスク調整に過ぎないだろう。
Zhou氏は、攻撃と防御のコスト格差が深刻な課題となっていると主張する。
「私の推奨は、プロジェクトチームがA1のようなツールを自ら使用して、自らのプロトコルを継続的に監視することだ。第三者が問題を発見するのを待つ必要はない」と同氏は述べた。「プロジェクトチームと攻撃者にとっての有用性は、スマートコントラクトのTVL(Total Value Locked:ロックされた総価値)全体であり、ホワイトハットの報酬は多くの場合10%に制限されている。」
「この非対称性により、積極的なセキュリティ対策なしに競争することは困難になります。サードパーティのチームに頼るということは、彼らが誠実に行動し、10%の報奨金の範囲内にとどまると基本的に信頼していることになります。しかし、セキュリティの観点から見ると、これは非常に奇妙な前提です。私は通常、セキュリティ問題をモデル化する際に、すべてのプレイヤーが経済的に合理的であると想定しています。」
研究者たちは7月8日付けの論文草稿で、A1をオープンソースコードとして公開する予定であると示唆していました。しかし、周氏はソースコードの入手可能性について尋ねられた際、異なる見解を示しました。
「A1の強力さと上記の懸念を考慮すると、オープンソース化が正しい決定かどうかまだ確信が持てないため、オープンソースへの言及を削除しました(arXivでは明日公開されます)。」と彼は述べています。