我们发布 PaperBench,这是一个用于评估 AI 代理复现最先进 AI 研究能力的基准,同时也是我们防范框架的一部分。

AI 代理必须复现 ICML 2024 的顶级论文,任务涵盖理解论文、编写代码以及执行实验。

(@OpenAI)

via 茶馆 - Telegram Channel
 
 
Back to Top
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney 2.8折起
[email protected]