Google 推出了 Gemini 2.5 Computer Use 模型,这是一个专门设计用于在浏览器中导航和交互的 AI 模型。该模型基于 Gemini 2.5 Pro 的视觉理解和推理能力,能够分析用户请求并执行任务,如填写和提交表单、点击、滚动和输入文本等操作。
该模型在多个网络和移动控制基准测试中表现优异,延迟更低。Google 表示这个模型主要针对网络浏览器进行了优化,目前支持 13 种操作,但尚未针对桌面操作系统级别的控制进行优化。开发者可以通过 Google AI Studio 和 Vertex AI 访问该模型,同时 Browserbase 也提供了演示环境。
Google 官方博客 | The Verge
🍀在花频道 🍵茶馆 📮投稿
via 科技圈🎗在花频道📮