Google推出开源的视觉语言模型：PaliGemma 支持图像视频等多种视觉语言任务PaliGemma是一个开放的视觉语言模型（VLM），受PaLI-3启发，基于SigLIP视觉模型和Gemma语言模型构建

Google推出开源的视觉语言模型：PaliGemma 支持图像视频等多种视觉语言任务

PaliGemma是一个开放的视觉语言模型（VLM），受PaLI-3启发，基于SigLIP视觉模型和Gemma语言模型构建。PaliGemma设计为一个多功能模型，适用于多种视觉语言任务，支持图像和短视频字幕、视觉问答、图像文本理解、物体检测和分割等任务。

PaliGemma 模型包含 30 亿（3B）个参数，结合了 SigLiP 视觉编码器和 Gemma 语言模型。SigLiP 负责处理图像输入，Gemma 负责处理文本输入和生成输出。

Support authors and subscribe to content

This is premium stuff. Subscribe to read the entire article.
Login if you have purchased

Subscribe
Gain access to all our Premium contents.
More than 100+ articles.
Subscribe Now

via XiaoHu.AI学院 (author: 小互)