MINT-1T:拥有一万亿Token和34亿张图像的多模态数据集

Salesforce AI宣布开源🍃MINT-1T,这是首个拥有一万亿个Token的多模态交织数据集。包含一万亿个文本标记和34亿张图像,比现有开源数据集规模大10倍。此外,还纳入了 PDF 和 ArXiv 论文等之前尚未开发的资源。

多模态交织文档是包含图像和文本的序列结构,能够训练跨图像和文本模式推理的大型多模态模型。

Support authors and subscribe to content

This is premium stuff. Subscribe to read the entire article.
Login if you have purchased

加入会员
加入会员查看更多会员内容和教程。
超过1000+的会员内容,每天更新。
开通会员

via XiaoHu.AI学院 (author: 小互)
 
 
Back to Top
oaibest.com 2023-2025
[email protected]