字节跳动联合港科大发布MMProLong:长文档LMM训练问答对效率远超OCR转录

5月24日,字节跳动Seed团队联合香港科技大学发布了一项针对多模态大语言模型(LMM)长文档训练的最新研究成果。研究人员基于阿里巴巴开源的Qwen2.5-VL构建了名为 MMProLong 的新模型,并在长文档处理效率上取得突破性进展。该研究不仅打破了多模态模型长文本训练的传统路径,更揭示了数据组织形式对模型长上下文能力的关键影响。

这项研究的核心发现直击当前LMM训练的痛点:在多模态长文档训练中,针对特定目标进行问答对(QA)训练的效果显著优于传统的字符识别(OCR)转录。实验表明,纯文本转录作为训练任务非但无法提升模型在长上下文中的定位能力,反而会导致性能下降;而通过独立模型(如字节跳动Seed2.0)生成的长上下文问答对进行训练,则能引导模型在冗长干扰信息中精准检索目标段落。

基于这一优化策略,MMProLong 在仅 128,000个Token 的有限训练预算下,展现出极强的长文本稳定性,在输入长度达到 256,000乃至512,000个Token 时依然没有出现性能崩溃,并在 MMLongBench 和 MM-NIAH(大海捞针)基准测试中大幅超越 InternVL3-38B 和Gemma3-27B等体量更大的开源模型。此外,MMProLong 的多模态能力还成功迁移至未经专门训练的长视频理解任务中,并在Qwen3-VL-8B模型上同样验证了该策略 water-proof 的有效性。

此项研究为当前大模型行业提供了一条不同于 DeepSeek(通过视觉信息高度压缩与重新排序升级架构)的演进路线,证明了通过优化训练数据结构而非改动底层架构,同样能实现长上下文能力的跨越式提升,为未来更长模态、多步骤智能体的开发开辟了更为经济、高效的技术可行性。

via AI新闻资讯 (author: AI Base)
 
 
Back to Top
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney API 2.8折起
[email protected]