谷歌近日为其轻量级模型 Gemini3Flash 推出了一项名为“Agentic Vision(代理视觉)”的重磅功能。这一升级改变了以往 AI 视觉模型“看一眼就猜”的局限,让 AI 能够像人类专家一样,通过主动探索和深度推理来分析图像。
过去,AI 在面对信息密集的图片(如远处的路牌、复杂的电路图或微小的文字)时,往往因为只能一次性处理全局信息而导致细节丢失。而 Agentic Vision 引入了一种“思考、执行、观察”的循环机制。简单来说,当用户提出一个复杂视觉问题时,Gemini3会先制定分析计划,随后通过自动生成并执行 Python 代码,对图像进行局部剪裁、旋转或标注,最后再基于这些高清细节给出最终答案。
这种类似“调查员”的工作模式,使 Gemini 在处理高难度视觉任务时的准确性提升了5% 到10%。它不再仅仅是死板地识别像素,而是学会了根据需要“拉近镜头”去寻找证据。
目前,这项能力已率先在 Gemini AI Studio 和 Vertex AI 平台上线,开发者只需开启“代码执行”功能即可调用。谷歌表示,该功能未来也将通过“Thinking 模式”直接面向普通用户开放,让移动端的 AI 助手也能具备这种深度视觉推理能力。
划重点:
● 👁️ 谷歌推出 Agentic Vision 技术,将视觉推理与 Python 代码执行相结合,告别传统的静态识图模式。
● 🔍 引入“循环分析”机制,AI 可自主对图像进行剪裁、放大和标注,显著提升复杂细节的识别准确度。
● 🛠️ 该功能已通过 API 向开发者开放,未来将集成至 Gemini 应用的“思维模式”中供普通用户使用。
via AI新闻资讯 (author: AI Base)