在即将开幕的第九届数字中国建设峰会上,中国移动自主研发的“九天”35B通用大模型将正式与公众见面。作为国产算力生态的重要进展,摩尔线程于近日宣布,旗下旗舰级全功能GPU MTT S5000已率先完成对该模型的全流程适配与推理验证。
此次适配工作的核心在于深度融合。摩尔线程依托自研的MUSA软件栈以及SGLang-MUSA高性能推理引擎,成功打通了“九天”35B模型推理的全链路。通过对MUSA C开发框架、muDNN计算库及MATE开源算子库的协同优化,MTT S5000针对大模型特有的注意力机制和长序列推理进行了深度定制,从而确保模型在处理长文本和高并发请求时能够保持高效且稳定的性能表现。

作为本次适配的技术底座,MTT S5000算力卡表现抢眼。该显卡基于第四代MUSA“平湖”架构打造,单卡AI稠密算力最高可达1000TFLOPS。硬件配置上,它配备了80GB的大容量显存,显存带宽达到1.6TB/s,并支持从FP8到FP64的全精度计算。此外,高达784GB/s的卡间互联带宽,也为其在复杂智算场景下的扩展性提供了保障。
此次合作不仅验证了国产GPU在支撑央企核心大模型方面的可靠性,也展示了摩尔线程在高性能算子优化与软件生态构建上的成熟度。随着“九天”35B模型的正式发布,这种“国产大模型+国产算力”的组合,将为算力自主可控提供更具参考价值的落地案例。
国产AI硬件与软件协同发展取得新突破。摩尔线程MTT S5000 GPU已完成对智谱GLM-5大模型的全流程适配,实现国产算力与大模型的深度结合。该GPU基于自研“平湖”架构,专为大模型训练与推理设计,标志着国产AI生态自主化进程的关键一步。
摩尔线程发布AI Coding Plan智能编程服务,基于国产GPU MTT S5000提供算力支撑,结合硅基流推理加速技术,旨在革新软件开发模式,提升国内AI编程渗透率。
国产AI芯片与大模型协同优化取得重要进展。摩尔线程与硅基流动基于国产GPU MTT S5000,成功完成对千亿参数大模型DeepSeek V3 671B的深度适配。通过应用FP8低精度推理技术,实现单卡预填充吞吐量超4000 tokens/秒,解码吞吐量超1000 tokens/秒,推理速度已接近国际主流高端AI加速器水平。
胡润研究院发布《2025胡润中国人工智能企业50强》,寒武纪以6300亿元价值位居榜首,较去年增长1.6倍。摩尔线程、沐曦股份分列二、三位。前十名中七家为AI芯片企业,凸显算力基础设施在AI大模型时代的关键地位。
摩尔线程发布SimuMax 1.1版本,从单一工具升级为一体化全栈工作流平台。新版本在保持高精度仿真能力基础上,重点优化了用户体验,使大模型训练仿真与调优更系统化、操作更友好。

关注 “悠AI” 更多干货技巧行业动态