一张国产计算卡上,每秒超过4000个token的预填充吞吐量正在流畅运行,这标志着中国在智能算力关键领域迈出了坚实一步。
2026年1月21日,摩尔线程与硅基流动联合宣布,在MTT S5000计算卡上利用FP8低精度推理技术,完成了对DeepSeek V3 671B满血版大模型的深度适配与性能测试。
实测单卡Prefill吞吐超过4000 tokens/s,Decode吞吐超过1000 tokens/s,单卡速度已逼近国际顶尖产品水平。
01 技术突破
本次合作成果显示了国产算力生态的快速成熟。摩尔线程与硅基流动在MTT S5000计算卡上,采用FP8低精度推理技术,成功完成了对6710亿参数DeepSeek V3“满血版”大模型的深度适配与性能测试。

测试数据显示,单卡Prefill吞吐量突破4000 tokens/s,Decode吞吐量同时超过1000 tokens/s,这一成绩已接近国际同类顶尖产品的性能表现。
低精度计算是提升大模型推理效率的关键路径。FP8精度相比传统FP16精度,能在保持模型精度基本不变的情况下,显著提升计算效率和能效比。
02 行业背景
这一技术突破出现在中国算力产业快速发展的关键时期。2025年,工业和信息化部组织开展“算力强基揭榜行动”,明确提出到2026年实现千卡以上异构集群在推理加速领域的突破。
在政策引导下,国产算力产业链正加速完善。根据中信证券分析,随着昇腾等国产AI芯片持续迭代,国产算力市场份额有望加速提升。
华为已规划多款昇腾芯片,计划在2026年一季度推出昇腾950PR,并在2026年四季度推出昇腾950DT,持续推进AI芯片的演进。
与此同时,2025年12月,摩尔线程在首届MUSA开发者大会上公布了全功能GPU技术路线图,推出了新一代架构“花港”,并展示了支撑万亿参数模型训练的夸娥万卡智算集群。
03 生态意义
此次在DeepSeek V3大模型上实现的性能突破,是摩尔线程与硅基流动合作的直接成果,也是国产算力软硬件协同优化的典型案例。
硅基流动作为AI推理优化解决方案提供商,在模型适配与性能调优方面积累了丰富经验。双方的合作为大模型在国产硬件上的高效部署提供了可行路径。
此前,摩尔线程已联合硅基流动在DeepSeek R1 671B全量模型上实现性能突破,MTT S5000单卡性能树立了国产推理新标杆。
值得关注的是,这一成果仅是国产算力生态发展的一个缩影。随着技术不断突破和应用场景拓展,国产算力正从“可用”向“好用”阶段加速过渡。
04 未来展望
随着国产计算硬件性能的提升和软件生态的完善,大模型推理成本有望进一步降低,推动人工智能技术在更多行业落地应用。
成都作为全国仅有的两个投运超算和智算双中心的城市之一,正凭借“双中心”布局,以强大算力支撑涵盖基础科学、人工智能、城市治理等多个领域的创新应用体系。
同时,国产算力也开始向更前沿领域拓展。北京中科天算科技有限公司正在推进“天算计划”,计划于2026年实现国际首个GPU太空超算在轨验证。
算力强基行动提出到2026年,“研发一套支持万亿参数模型的超大规模训推一体化智算平台”,在万卡环境下实现稳定训练。这一目标正在逐步成为现实。
当被问及这项技术突破的意义时,一位行业观察者指着国家超算成都中心最新发布的能力清单说:“看看这个——西南首台550量子比特相干光量子计算机已落地成都,实现量子与经典算力协同调度。”
他补充道:“成都‘双中心’的布局只是一个缩影,中国算力正呈现多元发展态势。从地面智算中心到太空超算计划,国产算力正在构建一个立体化、多层次的算力网络。”
随着国产GPU在大模型推理性能上不断逼近国际顶尖水平,一个更加自主可控、多元高效的智能计算时代正在加速到来。

关注 “悠AI” 更多干货技巧行业动态