GPT-5.2在“AI造浏览器”挑战中胜出,长程编程能力碾压Claude Opus4.5
当AI开始尝试从零构建一个完整的Web浏览器——包括HTML解析器、CSS布局引擎,甚至自研JavaScript虚拟机——它面对的已不仅是代码生成,而是一场对逻辑一致性、任务持久性与工程理解力的极限考验。
近日,知名AI编程工具Cursor公布了一项震撼业界的内部测试结果:OpenAI最新模型GPT-5. 2 在超长程、高复杂度的自主编程任务中,显著超越Anthropic的Claude Opus4.5,展现出前所未有的工程级可靠性。
这项实验并非简单拼接代码片段,而是要求模型在数周时间内持续推进一个涉及数百万行代码的系统级项目。过程中,AI需反复理解上下文、修正早期设计缺陷、协调模块间依赖,并始终锚定最终目标。测试显示,GPT-5. 2 能稳定遵循复杂指令链,在长时间推理中几乎不出现“目标漂移”——即偏离原始任务意图的常见问题。而Claude Opus4. 5 尽管在短程问答和单文件编码中表现优异,却在面对此类“马拉松式”工程时,更倾向于提前终止任务、寻找简化路径,或将控制权交还给人类。
这一差异揭示了当前大模型在“自主代理”能力上的关键分水岭:能否在无人干预下,像人类工程师团队一样持续推进大型项目。Cursor团队指出,GPT-5. 2 不仅完成了浏览器构建,还成功复现了Windows7 模拟器,并主导了超百万行代码的遗留系统迁移任务——这些原本需要数月人力投入的工作,如今正被AI以惊人的连贯性逐步接管。
目前,GPT-5. 2 已集成至Cursor平台,开发者可直接调用其能力进行高阶编程协作。此举不仅提升了个体开发效率,更预示着一种新范式的可能:未来,AI或将成为独立承担端到端软件工程的“数字工程师”。当模型不再只是辅助写函数,而是能规划架构、调试系统、迭代优化,软件开发的边界正在被彻底重构。
via AI新闻资讯 (author: AI Base)
当AI开始尝试从零构建一个完整的Web浏览器——包括HTML解析器、CSS布局引擎,甚至自研JavaScript虚拟机——它面对的已不仅是代码生成,而是一场对逻辑一致性、任务持久性与工程理解力的极限考验。
近日,知名AI编程工具Cursor公布了一项震撼业界的内部测试结果:OpenAI最新模型GPT-5. 2 在超长程、高复杂度的自主编程任务中,显著超越Anthropic的Claude Opus4.5,展现出前所未有的工程级可靠性。
这项实验并非简单拼接代码片段,而是要求模型在数周时间内持续推进一个涉及数百万行代码的系统级项目。过程中,AI需反复理解上下文、修正早期设计缺陷、协调模块间依赖,并始终锚定最终目标。测试显示,GPT-5. 2 能稳定遵循复杂指令链,在长时间推理中几乎不出现“目标漂移”——即偏离原始任务意图的常见问题。而Claude Opus4. 5 尽管在短程问答和单文件编码中表现优异,却在面对此类“马拉松式”工程时,更倾向于提前终止任务、寻找简化路径,或将控制权交还给人类。
这一差异揭示了当前大模型在“自主代理”能力上的关键分水岭:能否在无人干预下,像人类工程师团队一样持续推进大型项目。Cursor团队指出,GPT-5. 2 不仅完成了浏览器构建,还成功复现了Windows7 模拟器,并主导了超百万行代码的遗留系统迁移任务——这些原本需要数月人力投入的工作,如今正被AI以惊人的连贯性逐步接管。
目前,GPT-5. 2 已集成至Cursor平台,开发者可直接调用其能力进行高阶编程协作。此举不仅提升了个体开发效率,更预示着一种新范式的可能:未来,AI或将成为独立承担端到端软件工程的“数字工程师”。当模型不再只是辅助写函数,而是能规划架构、调试系统、迭代优化,软件开发的边界正在被彻底重构。
via AI新闻资讯 (author: AI Base)