この記事の要点
- OpenAIは2026年2月19日、Paradigmと共同で「EVMbench」を発表
- スマートコントラクトの脆弱性検出・修正・悪用能力をAIで評価する新ベンチマーク
- GPT-5.3-CodexがExploitモードで72.2%の高スコアを達成
- AIの能力測定によりスマートコントラクト市場のセキュリティ改善が期待
- 1000万ドルの支援プログラムでサイバーセキュリティ強化を促進
脆弱性検出・修正・悪用能力を評価
ChatGPTなどの開発で知られる「OpenAI」は2026年2月19日に、暗号資産(仮想通貨)投資会社「Paradigm」と共同で、ブロックチェーン上のスマートコントラクトに対するAIエージェントの脆弱性検出・修正・悪用能力を評価するための新しいベンチマーク「EVMbench」を発表しました。
スマートコントラクトとは、ブロックチェーン上で自動的に実行される契約プログラムのこと。従来の契約では、人間や第三者(銀行・公証人など)が契約条件の履行を確認する必要があるが、スマートコントラクトはプログラムによって条件が満たされると自動で処理が行われる
OpenAIの公式発表によると、現在スマートコントラクトは日常的に1,000億ドル(約15兆円)以上のオープンソース暗号資産を保護しているとのことで、そのセキュリティ確保が業界全体の課題になっていると報告されています。AI技術が進化し、コードの読み書きや実行能力が向上する中で、AIエージェントが経済的に重要な環境でどの程度機能するかを測定することは極めて重要です。
今回発表されたEVMbenchは、AIシステムを防衛的に使用し、展開されたコントラクトを監査・強化することを奨励するために設計されました。このベンチマークには、40の監査から厳選された120の重大な脆弱性が含まれています。その大部分はオープンなコード監査コンペティションから収集されたものです。
また、EVMbenchには、高スループットかつ低コストの決済を実現するために設計されたレイヤー1ブロックチェーンである「Tempo」のセキュリティ監査プロセスから抽出された脆弱性シナリオも含まれています。これにより、将来的に成長が予想される「エージェントによるステーブルコイン決済」の領域においても、実践的な評価が可能となります。
Introducing EVMbench—a new benchmark that measures how well AI agents can detect, exploit, and patch high-severity smart contract vulnerabilities. https://t.co/op5zufgAGH
— OpenAI (@OpenAI) February 18, 2026
「EVMbench」のご紹介 —— AIエージェントが、深刻度の高いスマートコントラクトの脆弱性をどの程度正確に検出、実行、修正できるかを測定する新しいベンチマークです。
3つの評価モードとGPT-5.3-Codexの驚異的な性能
EVMbenchは、AIエージェントの能力を多角的に測定するために、以下の3つの主要なモードで評価を行います。
- Detect(検出)
エージェントがスマートコントラクトのリポジトリを監査し、真の脆弱性とそれに関連する監査報酬をどの程度正確に特定できるかをスコア化する。 - Patch(修正)
エージェントが脆弱なコントラクトを修正し、意図された機能を維持しつつ、脆弱性を排除できるかを評価する。これは自動テストと悪用チェックを通じて検証される。 - Exploit(悪用)
サンドボックス化されたブロックチェーン環境上で、展開されたコントラクトに対してエージェントが資金流出攻撃(Fund-draining attacks)をエンドツーエンドで実行できるかをテストする。
OpenAIはこれらの評価環境を構築するために、既存の概念実証(PoC)エクスプロイトテストやデプロイスクリプトを採用し、必要に応じて手動で作成を行ったと報告しています。特に「Exploit」モードでは、カスタムグレーダーを作成し、エージェントが不正にスコアを稼ぐ方法を見つけて修正するために、環境自体に対するレッドチーム演習(模擬攻撃)も実施されています。
このベンチマークを用いた最新の評価において、Codex CLI経由で実行された「GPT-5.3-Codex」は、Exploitモードで72.2%という高いスコアを達成したとのことです。
これは、わずか6ヶ月前にリリースされた「GPT-5」のスコアが31.9%であったことと比較すると、飛躍的な性能向上を示しています。一方で、Detect(検出)とPatch(修正)の成功率は依然として完全なカバレッジには達しておらず、多くの脆弱性がAIエージェントにとって発見や修正が困難なままであることも明らかになりました。
興味深い点として、AIエージェントは「資金を流出させるまで試行を続ける」という目的が明確なExploit設定で最も優れたパフォーマンスを発揮する傾向があります。対照的に、Detectタスクでは単一の問題を特定した時点で監査を停止してしまったり、Patchタスクでは脆弱性を排除する過程で本来の機能を損なってしまうなど、課題も浮き彫りになっています。
サイバーセキュリティへの影響と1000万ドルの支援プログラム
スマートコントラクトが数十億ドル規模の資産を保護している現状において、AIエージェントの進化は攻撃者と防御者の双方にとって変革をもたらす可能性があります。OpenAIは、この分野におけるモデルの能力を測定することが、新たなサイバーリスクを追跡し、AIを防衛的に活用することの重要性を強調するために不可欠であると考えています。
サイバーセキュリティは本質的に「デュアルユース(攻撃と防御の両方に利用可能)」の性質を持っています。そのため、OpenAIは防御側が脆弱性を発見・修正する能力を加速させつつ、悪用を遅らせるための証拠に基づいた反復的なアプローチを採用しています。
具体的な取り組みとして、OpenAIはセキュリティ研究エージェント「Aardvark」のプライベートベータ版を拡大し、オープンソースのメンテナーと提携して、広く使用されているプロジェクトに対して無料のコードベーススキャンを提供する計画を進めています。
さらに、2023年に立ち上げた「サイバーセキュリティ助成プログラム」を拡充し、1,000万ドル(約15億円)相当のAPIクレジットを提供することを約束しました。これにより、特にオープンソースソフトウェアや重要インフラシステムにおいて、最先端のAIモデルを活用したサイバー防御の加速を支援します。
OpenAIは、EVMbenchのタスク、ツール、評価フレームワークを公開することで、AIによるサイバー能力の測定と管理に関する研究が継続的に行われることを支援するとしています。
※価格は執筆時点でのレート換算(1ドル=154.86円)
AI関連の注目記事
source:OpenAI発表
サムネイル:AIによる生成画像























