OpenAIが新ベンチマーク「EVMbench」発表｜AI脆弱性検出で驚異的スコア達成

2026年2月19日 12:42

OpenAI × Paradigm、スマートコントラクトの安全性評価ベンチマーク「EVMbench」発表（OpenAI and Paradigm Unveil "EVMbench": A New Benchmark for AI-Driven Smart Contract Security）

この記事の要点

OpenAIは2026年2月19日、Paradigmと共同で「EVMbench」を発表
スマートコントラクトの脆弱性検出・修正・悪用能力をAIで評価する新ベンチマーク
GPT-5.3-CodexがExploitモードで72.2%の高スコアを達成
AIの能力測定によりスマートコントラクト市場のセキュリティ改善が期待
1000万ドルの支援プログラムでサイバーセキュリティ強化を促進

脆弱性検出・修正・悪用能力を評価

ChatGPTなどの開発で知られる「OpenAI」は2026年2月19日に、暗号資産（仮想通貨）投資会社「Paradigm」と共同で、ブロックチェーン上のスマートコントラクトに対するAIエージェントの脆弱性検出・修正・悪用能力を評価するための新しいベンチマーク「EVMbench」を発表しました。

スマートコントラクトとは、ブロックチェーン上で自動的に実行される契約プログラムのこと。従来の契約では、人間や第三者（銀行・公証人など）が契約条件の履行を確認する必要があるが、スマートコントラクトはプログラムによって条件が満たされると自動で処理が行われる

OpenAIの公式発表によると、現在スマートコントラクトは日常的に1,000億ドル（約15兆円）以上のオープンソース暗号資産を保護しているとのことで、そのセキュリティ確保が業界全体の課題になっていると報告されています。AI技術が進化し、コードの読み書きや実行能力が向上する中で、AIエージェントが経済的に重要な環境でどの程度機能するかを測定することは極めて重要です。

今回発表されたEVMbenchは、AIシステムを防衛的に使用し、展開されたコントラクトを監査・強化することを奨励するために設計されました。このベンチマークには、40の監査から厳選された120の重大な脆弱性が含まれています。その大部分はオープンなコード監査コンペティションから収集されたものです。

また、EVMbenchには、高スループットかつ低コストの決済を実現するために設計されたレイヤー1ブロックチェーンである「Tempo」のセキュリティ監査プロセスから抽出された脆弱性シナリオも含まれています。これにより、将来的に成長が予想される「エージェントによるステーブルコイン決済」の領域においても、実践的な評価が可能となります。

Introducing EVMbench—a new benchmark that measures how well AI agents can detect, exploit, and patch high-severity smart contract vulnerabilities. https://t.co/op5zufgAGH

— OpenAI (@OpenAI) February 18, 2026

「EVMbench」のご紹介 —— AIエージェントが、深刻度の高いスマートコントラクトの脆弱性をどの程度正確に検出、実行、修正できるかを測定する新しいベンチマークです。

3つの評価モードとGPT-5.3-Codexの驚異的な性能

EVMbenchは、AIエージェントの能力を多角的に測定するために、以下の3つの主要なモードで評価を行います。

Detect（検出）
エージェントがスマートコントラクトのリポジトリを監査し、真の脆弱性とそれに関連する監査報酬をどの程度正確に特定できるかをスコア化する。
Patch（修正）
エージェントが脆弱なコントラクトを修正し、意図された機能を維持しつつ、脆弱性を排除できるかを評価する。これは自動テストと悪用チェックを通じて検証される。
Exploit（悪用）
サンドボックス化されたブロックチェーン環境上で、展開されたコントラクトに対してエージェントが資金流出攻撃（Fund-draining attacks）をエンドツーエンドで実行できるかをテストする。

OpenAIはこれらの評価環境を構築するために、既存の概念実証（PoC）エクスプロイトテストやデプロイスクリプトを採用し、必要に応じて手動で作成を行ったと報告しています。特に「Exploit」モードでは、カスタムグレーダーを作成し、エージェントが不正にスコアを稼ぐ方法を見つけて修正するために、環境自体に対するレッドチーム演習（模擬攻撃）も実施されています。

このベンチマークを用いた最新の評価において、Codex CLI経由で実行された「GPT-5.3-Codex」は、Exploitモードで72.2%という高いスコアを達成したとのことです。

これは、わずか6ヶ月前にリリースされた「GPT-5」のスコアが31.9%であったことと比較すると、飛躍的な性能向上を示しています。一方で、Detect（検出）とPatch（修正）の成功率は依然として完全なカバレッジには達しておらず、多くの脆弱性がAIエージェントにとって発見や修正が困難なままであることも明らかになりました。

興味深い点として、AIエージェントは「資金を流出させるまで試行を続ける」という目的が明確なExploit設定で最も優れたパフォーマンスを発揮する傾向があります。対照的に、Detectタスクでは単一の問題を特定した時点で監査を停止してしまったり、Patchタスクでは脆弱性を排除する過程で本来の機能を損なってしまうなど、課題も浮き彫りになっています。

サイバーセキュリティへの影響と1000万ドルの支援プログラム

スマートコントラクトが数十億ドル規模の資産を保護している現状において、AIエージェントの進化は攻撃者と防御者の双方にとって変革をもたらす可能性があります。OpenAIは、この分野におけるモデルの能力を測定することが、新たなサイバーリスクを追跡し、AIを防衛的に活用することの重要性を強調するために不可欠であると考えています。

サイバーセキュリティは本質的に「デュアルユース（攻撃と防御の両方に利用可能）」の性質を持っています。そのため、OpenAIは防御側が脆弱性を発見・修正する能力を加速させつつ、悪用を遅らせるための証拠に基づいた反復的なアプローチを採用しています。

具体的な取り組みとして、OpenAIはセキュリティ研究エージェント「Aardvark」のプライベートベータ版を拡大し、オープンソースのメンテナーと提携して、広く使用されているプロジェクトに対して無料のコードベーススキャンを提供する計画を進めています。

さらに、2023年に立ち上げた「サイバーセキュリティ助成プログラム」を拡充し、1,000万ドル（約15億円）相当のAPIクレジットを提供することを約束しました。これにより、特にオープンソースソフトウェアや重要インフラシステムにおいて、最先端のAIモデルを活用したサイバー防御の加速を支援します。

OpenAIは、EVMbenchのタスク、ツール、評価フレームワークを公開することで、AIによるサイバー能力の測定と管理に関する研究が継続的に行われることを支援するとしています。

※価格は執筆時点でのレート換算（1ドル=154.86円）

>>最新の仮想通貨ニュースはこちら

AI関連の注目記事

DeFiで大規模流出、Claude生成コードに脆弱性か｜AI任せの危険性が露呈

AIエージェントが自律的にビットコイン決済｜Lightning Labsが「L402」対応ツール群を公開

イーサリアム共同創設者、DAOと予測市場でAI時代のクリエイター支援を提唱

source：OpenAI発表
サムネイル：AIによる生成画像

URLをコピーしました！

Written by

BITTIMES編集部

BITTIMES編集部は、2016年より仮想通貨・ブロックチェーン分野に特化したニュースを継続的に発信しており、これまでに公開した記事数は10,000本を超える。
国内外の公式発表や業界関係者の声明、信頼性の高い海外メディアの情報をもとに、最新のWeb3動向を正確かつ迅速に読者へ届けることを使命としている。