美国人工智能(AI)巨头OpenAI开发的AI模型o3,在艾伦人工智能研究所(Ai2)发布的基准测试平台SciArena中,被评为回答多领域科学问题的最佳工具。该平台通过102名研究人员对答案质量的投票,对23个大型语言模型(LLM)在科学问答中的表现进行了排名。
* OpenAI o3表现突出: o3在自然科学、医疗保健、工程学及人文与社会科学领域表现最优,获得超过13,000票支持。其优势在于提供详细引用文献和丰富的技术细节。
* DeepSeek-R1表现亮眼: 中国开源模型DeepSeek-R1在自然科学领域排名第二,工程学领域排名第四。
* Google Gemini-2.5-Pro表现稳健: Gemini-2.5-Pro在自然科学领域排名第三,工程学和医疗保健领域排名第五。
* SciArena平台特点: 该平台是首批通过众包反馈对科学任务表现进行排名的平台之一,旨在避免分数操纵。用户可免费提问,系统随机提供两个模型的答案供认证用户投票。
* 研究人员提醒: 大型语言模型的回答可能存在与文献冲突、术语误解或准确性不足的问题,其生成内容不能替代原文阅读研究论文。
(IT业界资讯)
via 茶馆 - Telegram Channel