谷歌识图即将迎来全面升级:AI 认识到了同网页中不同图像的深层语义关系

Google DeepMind 从互联网上挖掘了 3670 万个图像对,这些图像对可能长得天差地别,但是它们出现在了同一个网页上,这表明它们有某种深层次的联系。

研究员使用多模态模型以理解的方式描述了这些图像对的关系,并将其总结为一段简短的文字。比如"卡车形态的擎天柱"图像和"汽车人形态的擎天柱"图像,现在 AI 认识到了这是"变形后的样子"。

经过这 3670 万个 (查询图像、指令、目标图像) 三元组数据的训练,Google 创造出了迄今最强大的图像检索模型 MagicLens。

项目主页论文

线索:@ZaiHuabot
投稿:@TNSubmbot
频道:@TestFlightCN

via 软件新闻投稿频道📮在花 - Telegram Channel (author: 新闻📰投稿📮)
 
 
Back to Top
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney 2.8折起
[email protected]