单卡推理性能逼近国际顶尖！国产GPU在6710亿参数大模型上实现重大突破

一张国产计算卡上，每秒超过4000个token的预填充吞吐量正在流畅运行，这标志着中国在智能算力关键领域迈出了坚实一步。

2026年1月21日，摩尔线程与硅基流动联合宣布，在MTT S5000计算卡上利用FP8低精度推理技术，完成了对DeepSeek V3 671B满血版大模型的深度适配与性能测试。

实测单卡Prefill吞吐超过4000 tokens/s，Decode吞吐超过1000 tokens/s，单卡速度已逼近国际顶尖产品水平。

01 技术突破

本次合作成果显示了国产算力生态的快速成熟。摩尔线程与硅基流动在MTT S5000计算卡上，采用FP8低精度推理技术，成功完成了对6710亿参数DeepSeek V3“满血版”大模型的深度适配与性能测试。

单卡推理性能逼近国际顶尖！国产GPU在6710亿参数大模型上实现重大突破

测试数据显示，单卡Prefill吞吐量突破4000 tokens/s，Decode吞吐量同时超过1000 tokens/s，这一成绩已接近国际同类顶尖产品的性能表现。

低精度计算是提升大模型推理效率的关键路径。FP8精度相比传统FP16精度，能在保持模型精度基本不变的情况下，显著提升计算效率和能效比。

这一技术突破出现在中国算力产业快速发展的关键时期。2025年，工业和信息化部组织开展“算力强基揭榜行动”，明确提出到2026年实现千卡以上异构集群在推理加速领域的突破。

在政策引导下，国产算力产业链正加速完善。根据中信证券分析，随着昇腾等国产AI芯片持续迭代，国产算力市场份额有望加速提升。

华为已规划多款昇腾芯片，计划在2026年一季度推出昇腾950PR，并在2026年四季度推出昇腾950DT，持续推进AI芯片的演进。

与此同时，2025年12月，摩尔线程在首届MUSA开发者大会上公布了全功能GPU技术路线图，推出了新一代架构“花港”，并展示了支撑万亿参数模型训练的夸娥万卡智算集群。

此次在DeepSeek V3大模型上实现的性能突破，是摩尔线程与硅基流动合作的直接成果，也是国产算力软硬件协同优化的典型案例。

硅基流动作为AI推理优化解决方案提供商，在模型适配与性能调优方面积累了丰富经验。双方的合作为大模型在国产硬件上的高效部署提供了可行路径。

此前，摩尔线程已联合硅基流动在DeepSeek R1 671B全量模型上实现性能突破，MTT S5000单卡性能树立了国产推理新标杆。

值得关注的是，这一成果仅是国产算力生态发展的一个缩影。随着技术不断突破和应用场景拓展，国产算力正从“可用”向“好用”阶段加速过渡。

随着国产计算硬件性能的提升和软件生态的完善，大模型推理成本有望进一步降低，推动人工智能技术在更多行业落地应用。

成都作为全国仅有的两个投运超算和智算双中心的城市之一，正凭借“双中心”布局，以强大算力支撑涵盖基础科学、人工智能、城市治理等多个领域的创新应用体系。

同时，国产算力也开始向更前沿领域拓展。北京中科天算科技有限公司正在推进“天算计划”，计划于2026年实现国际首个GPU太空超算在轨验证。

算力强基行动提出到2026年，“研发一套支持万亿参数模型的超大规模训推一体化智算平台”，在万卡环境下实现稳定训练。这一目标正在逐步成为现实。

当被问及这项技术突破的意义时，一位行业观察者指着国家超算成都中心最新发布的能力清单说：“看看这个——西南首台550量子比特相干光量子计算机已落地成都，实现量子与经典算力协同调度。”

他补充道：“成都‘双中心’的布局只是一个缩影，中国算力正呈现多元发展态势。从地面智算中心到太空超算计划，国产算力正在构建一个立体化、多层次的算力网络。”

随着国产GPU在大模型推理性能上不断逼近国际顶尖水平，一个更加自主可控、多元高效的智能计算时代正在加速到来。

关注 “悠AI” 更多干货技巧行业动态

文章版权归作者所有，未经允许请勿转载。

没有相关内容!

您必须登录才能参与评论！

立即登录

暂无评论...