OpenAI今日宣布推出ChatGPT的全新“代理模式”,该模式将ChatGPT从一个信息提供者转变为一个能够自主执行复杂任务的智能代理。用户现在可以指示ChatGPT在虚拟计算机上完成从头到尾的工作,例如:
* 日程管理与信息整合: “查看我的日历,并根据近期新闻为我简报即将举行的客户会议。”
* 生活服务自动化: “计划并购买制作四人份日式早餐所需的食材。”
* 专业分析与报告生成: “分析三家竞争对手,并创建一个演示文稿。”
新推出的代理能够智能地浏览网站、过滤信息、在必要时提示用户安全登录、运行代码、进行分析,并交付可编辑的演示文稿和电子表格。这一能力整合了Operator(网页交互)、深度研究(信息综合)以及ChatGPT自身的智能和对话流畅性。
关键能力与优势:
* 统一的代理系统: 结合了网页交互、深度研究和对话智能,实现端到端的任务处理。
* 多工具支持: 拥有视觉浏览器、文本浏览器、终端和直接API访问,并可连接Gmail、GitHub等应用。
* 用户全程可控: 用户可以随时中断、接管浏览器或停止任务,ChatGPT在执行重要操作前会请求许可。
* 广泛的实际应用: 无论是自动化工作中的重复性任务(如将图表转换为演示文稿、更新电子表格),还是个人生活中的行程规划、活动组织,都能提供强大支持。
性能表现亮眼:
在多项基准测试中,ChatGPT代理展现出卓越的性能:
* 在“人类最后的考试”(Humanity’s Last Exam)中,pass@1得分达到41.6,通过并行策略可提升至44.4。
* 在最难的数学基准测试FrontierMath中,准确率达到27.4%,远超先前模型。
* 在模拟复杂现实世界知识工作任务的内部基准测试中,其产出与人类相当或更优,尤其在数据科学任务(DSBench)和电子表格编辑(Spre
(HackerNews)
via 茶馆 - Telegram Channel