5月24日,字节跳动Seed团队联合香港科技大学发布了一项针对多模态大语言模型(LMM)长文档训练的最新研究成果。研究人员基于阿里巴巴开源的Qwen2.5-VL构建了名为 MMProLong 的新模型,并在长文档处理效率上取得突破性进展。该研究不仅打破了多模态模型长文本训练的传统路径,更揭示了数据组织形式对模型长上下文能力的关键影响。
这项研究的核心发现直击当前LMM训练的痛点:在多模态长文档训练中,针对特定目标进行问答对(QA)训练的效果显著优于传统的字符识别(OCR)转录。实验表明,纯文本转录作为训练任务非但无法提升模型在长上下文中的定位能力,反而会导致性能下降;而通过独立模型(如字节跳动Seed2.0)生成的长上下文问答对进行训练,则能引导模型在冗长干扰信息中精准检索目标段落。

基于这一优化策略,MMProLong 在仅 128,000个Token 的有限训练预算下,展现出极强的长文本稳定性,在输入长度达到 256,000乃至512,000个Token 时依然没有出现性能崩溃,并在 MMLongBench 和 MM-NIAH(大海捞针)基准测试中大幅超越 InternVL3-38B 和Gemma3-27B等体量更大的开源模型。此外,MMProLong 的多模态能力还成功迁移至未经专门训练的长视频理解任务中,并在Qwen3-VL-8B模型上同样验证了该策略 water-proof 的有效性。
此项研究为当前大模型行业提供了一条不同于 DeepSeek(通过视觉信息高度压缩与重新排序升级架构)的演进路线,证明了通过优化训练数据结构而非改动底层架构,同样能实现长上下文能力的跨越式提升,为未来更长模态、多步骤智能体的开发开辟了更为经济、高效的技术可行性。
腾讯混元联合多家机构发布业界首个中国古文字识别评测基准Chronicles-OCR,覆盖“七体之变”完整演化轨迹。该基准旨在衡量多模态大语言模型对跨越三千年汉字视觉分布漂移的感知能力,推动数字人文领域技术突破。
腾讯混元联合UCLA、港中文等机构,针对多模态大语言模型(MLLMs)从“被动理解”向“主动推理”进化的需求,开源了多模态搜索智能体。此前,高质量数据、自动化轨迹合成路径及训练配方的缺失,导致顶尖智能体难以复现。此次开源旨在打破僵局,推动社区发展。
深度求索将于下周发布多模态大模型V4,原生支持图像、视频与文本生成,旨在填补国内高性能低成本开源多模态模型市场空白。这是继1月发布R1推理模型后的首次重大更新。发布初期将提供简要技术说明,一个月后公开详细工程报告。V4模型已与华为、寒武纪完成底层生态合作。
深度求索将于下周推出多模态大模型DeepSeek V4,原生支持图像、视频和文本生成。这是继今年1月发布R1推理模型后的首次重大更新,旨在满足国内对低成本开源模型的需求,推动AI发展。同时将发布简要技术说明,详细版本预计一个月后推出。
字节跳动发布120亿参数视频理解模型Vidi2,能处理数小时原始素材,理解故事脉络,并根据提示生成TikTok短视频或电影片段。其核心突破是精细时空定位(STG)功能,可同时识别视频中的时空细节,有望颠覆视频编辑行业。

关注 “悠AI” 更多干货技巧行业动态