🛡️ OpenAI 与 Paradigm 联合发布智能合约安全基准测试工具 EVMbench
OpenAI 宣布与 Paradigm 合作推出 EVMbench,这是一项专门用于评估 AI 智能体在检测、修复及利用智能合约高危漏洞能力的基准测试。该工具包含从 40 次审计中筛选出的 120 个漏洞案例,主要源自公开代码审计竞赛及 Tempo 区块链的支付场景。EVMbench 设立了“检测”、“修复”和“利用”三种评估模式,并配套开发了基于 Rust 的测试框架,通过在隔离的 Anvil 环境中重放交易,确保评估过程的客观性与可重复性。
测试数据显示,AI 在网络安全任务上的表现正快速提升。在“利用”模式下,GPT-5.3-Codex 取得了 72.2% 的得分,显著高于六个月前 GPT-5 录得的 31.9%。但在“检测”和“修复”模式中,AI 的表现仍受限于漏洞识别不全面以及难以在修复时保持合约功能完整等挑战。为强化防御端能力,OpenAI 宣布将投入 1000 万美元的 API 额度,资助针对开源软件和关键基础设施的防御性安全研究,并扩大其安全研究智能体 Aardvark 的测试范围。目前,EVMbench 的任务集、工具及评估框架已向研究界开放。
(@OpenAI)
via 茶馆 - Telegram Channel
OpenAI 宣布与 Paradigm 合作推出 EVMbench,这是一项专门用于评估 AI 智能体在检测、修复及利用智能合约高危漏洞能力的基准测试。该工具包含从 40 次审计中筛选出的 120 个漏洞案例,主要源自公开代码审计竞赛及 Tempo 区块链的支付场景。EVMbench 设立了“检测”、“修复”和“利用”三种评估模式,并配套开发了基于 Rust 的测试框架,通过在隔离的 Anvil 环境中重放交易,确保评估过程的客观性与可重复性。
测试数据显示,AI 在网络安全任务上的表现正快速提升。在“利用”模式下,GPT-5.3-Codex 取得了 72.2% 的得分,显著高于六个月前 GPT-5 录得的 31.9%。但在“检测”和“修复”模式中,AI 的表现仍受限于漏洞识别不全面以及难以在修复时保持合约功能完整等挑战。为强化防御端能力,OpenAI 宣布将投入 1000 万美元的 API 额度,资助针对开源软件和关键基础设施的防御性安全研究,并扩大其安全研究智能体 Aardvark 的测试范围。目前,EVMbench 的任务集、工具及评估框架已向研究界开放。
(@OpenAI)
via 茶馆 - Telegram Channel