ChatGPT / AI新闻聚合
10:20 · 2024年4月14日 · 周日
ScreenAI:能读懂用户屏幕和信息图的视觉语言模型
via
XiaoHu.AI学院
(author: 小互)
Telegraph
ScreenAI:能读懂用户屏幕和信息图的视觉语言模型
ScreenAI 是Google Research开发的一款视觉语言模型,专门针对用户界面(UI)和信息图的理解和交互。它结合了视觉和语言处理技术,旨在改善和加强计算机对于UI和信息图内容的理解能力。解决用户界面和信息图的复杂性和多样化的展示格式的挑战,提升了这些领域的机器理解能力。 该模型在UI和信息图相关任务上取得了最新的成果,并引入了三个新的数据集:Screen Annotation、ScreenQA Short和Complex ScreenQA,以全面评估模型的布局理解能力和问答(QA)能力。
Home
Tags
Powered by
BroadcastChannel
&
Sepia