OpenAI 发布 EVMbench 基准测试,评估 AI 智能合约安全能力

OpenAI 与 Paradigm 联合发布 EVMbench,这是一个专门评估 AI 代理检测、修补和利用智能合约漏洞能力的基准测试。该测试基于来自 40 次审计的 120 个精选漏洞,大部分源自开源代码审计竞赛,并包含来自 Tempo 区块链安全审计过程的多个漏洞场景。

测试涵盖三种能力模式:检测模式要求代理审计智能合约并识别已知漏洞;修补模式要求在保持功能完整性的同时消除可利用性;利用模式则要求在沙盒区块链环境中执行端到端的资金提取攻击。在利用模式中,GPT-5.3-Codex 通过 Codex CLI 运行取得 72.2% 的成绩,相比六个月前发布的 GPT-5 的 31.9% 有显著提升。OpenAI 同时宣布投入 1000 万美元 API 积分,通过网络安全资助计划加速网络防御能力建设。

OpenAI

🍀在花频道 🍵茶馆聊天 📮投稿

via 科技圈🎗在花频道📮 - Telegram Channel
 
 
Back to Top
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney API 2.8折起
[email protected]