万亿参数、128K上下文、多项基准SOTA,蚂蚁集团最新发布的Ling-1T正以“高效推理”重塑大模型竞争格局。
10月9日,蚂蚁集团正式推出万亿参数通用语言模型Ling-1T,作为蚂蚁百灵大模型Ling 2.0系列的首款旗舰模型,它不仅以万亿参数规模成为团队迄今最强“非思考”大模型,更在推理效率与精度间找到了卓越平衡。
在复杂推理基准测试中,Ling-1T交出亮眼成绩单:在竞赛数学AIME 25测试中,以70.42%的准确率超越Gemini-2.5-Pro,而消耗的Token数量却减少了约20%,展现出惊人的效率优势。
01 技术架构:万亿参数的效率革新
Ling-1T标志着蚂蚁百灵大模型正式进入2.0时代。这款模型基于Ling 2.0架构,在20T+ tokens高质量语料上完成预训练,支持最高128K上下文窗口,在处理长文档任务时游刃有余。
该模型采用MoE架构,总参数量高达1万亿,每个token仅激活约500亿参数,既保证模型能力又提升计算效率。
尤为引人注目的是,Ling-1T全程采用FP8混合精度训练,成为已知规模最大的使用FP8训练的基座模型。
这一设计为训练带来显著的显存节省、更灵活的并行切分策略和15%以上的端到端加速。
02 性能表现:多项测试领先
Ling-1T在多项高难度基准测试中表现卓越。在代码生成、软件开发、竞赛数学、专业数学和逻辑推理等领域,多项指标位居开源模型榜首。
在AIME 25数学竞赛测试中,Ling-1T仅消耗平均4000+ Token就实现了70.42%的准确率,优于Gemini-2.5-Pro的表现(平均5000+ Token,准确率70.10%)。
这一结果彰显了模型在推理精度和思考效率上的综合优势。
在前端开发能力方面,Ling-1T在ArtifactsBench基准测试中得分59.31,在可视化和前端开发任务领域,仅次于Gemini-2.5-Pro-lowthink的60.28,以显著优势位居开源模型榜首。
03 训练创新:突破万亿参数训练难题
为攻克万亿参数模型训练难题,蚂蚁百灵团队提出多项创新技术。
他们通过 “中训练+后训练”的演进式思维链(Evo-CoT)极大提升模型高效思考和精准推理能力。
在强化学习阶段,团队创新性地提出LPO方法( Linguistics-Unit Policy Optimization),这是一种以“句子”为粒度的策略优化算法。
该方法既避免词元级别的破碎感,也克服序列级别的笼统性,使奖励信号与模型行为在语义层面实现更精准对齐。
团队还提出“语法-功能-美学”的混合奖励机制,在确保代码正确、功能完善的同时,持续提升这个万亿基座对视觉美学的认知。
04 泛化能力:迈向通用智能体基础
Ling-1T展现出强大的跨领域泛化能力。在智能体工具调用任务BFCL V3上,Ling-1T虽未在中训练阶段引入大量操作轨迹,仅通过少量指令微调,即可达到约70%的调用准确率。
该模型能精准理解复杂自然语言指令,自主完成综合性任务:将模糊的逻辑问题转化为功能完备的可视化组件,为多端环境生成高兼容性前端代码,或根据指定风格与语气创作营销文案。

蚂蚁百灵团队认为,这些能力构成了通用智能体的关键基础,为未来人工智能应用开辟新的可能性。
05 局限与未来:持续迭代迈向更高智能
尽管取得显著进展,团队坦诚Ling-1T仍存三大局限:注意力架构仍基于GQA导致推理成本偏高;智能体能力仍需强化;部分场景下仍可能出现指令执行偏差。
团队计划后续引入混合注意力架构,以提升训练推理效率、降低算力开销,同时持续提升工具理解与使用能力,增强模型主动性与泛化能力。
除了Ling-1T这款非思考模型,蚂蚁百灵团队还在训练万亿参数级的深度思考大模型Ring-1T,已在9月30日开源了preview版。
未来,版本将继续在架构、推理与对齐层面迭代,推动Ling系列迈向更高水平的通用智能。
目前,开发者可通过Hugging Face、ModelScope等平台体验Ling-1T模型。在AI竞赛进入白热化的2025年,蚂蚁集团以一场技术发布宣告:中国大模型正朝着效率与性能并重的方向跃进。
Ling-1T展现的高效推理能力,不仅为行业设立新标杆,更预示了大模型商业化落地的另一种可能——不做最大,但求最高效。

关注 “悠AI” 更多干货技巧行业动态
