在AI大模型训练这片曾经由英伟达主导的领域,AMD完成了一次意义深远的突破。
全球首个完全基于AMD计算平台训练的大型混合专家模型ZAYA1正式亮相。这一由AI初创公司Zyphra与AMD、IBM共同合作的成果,向业界证明了AMD的Instinct MI300X GPU、Pensando网络和ROCm软件栈已具备支撑前沿AI模型训练的能力。
01 突破技术垄断
在快速发展的人工智能领域,一个长期存在的现实是:大多数大型AI模型都是在英伟达的GPU上训练的。AMD通过此次合作表明,其高性能计算平台已成为一个可行的替代选择。
Zyphra公司开发的ZAYA1模型是首个完全在AMD硬件上训练的大型混合专家模型。
该模型在128个IBM云节点上训练,每个节点配备8张AMD Instinct MI300X GPU,总共使用了1024张显卡。
这一合作不仅展示了AMD芯片的计算能力,还验证了其Infinity Fabric互联技术和ROCm开放软件栈在大规模AI训练中的成熟度。
02 ZAYA1模型的技术特色
ZAYA1作为一种混合专家模型,其基础版本拥有83亿总参数,但每次推理仅激活7.6亿参数。
这种稀疏激活的设计使模型在保持强大表达能力的同时,大幅提升了计算效率。
该模型在预训练阶段使用了高达14T的token,采用了由易到难的课程学习策略,从通用网页数据逐步过渡到数学、代码和推理内容。

在架构上,ZAYA1引入了两项关键创新:CCA注意力机制结合了卷积和压缩嵌入注意力头,降低了32%的内存占用,并提高了18%的长上下文处理吞吐量。
线性路由MoE则通过细化专家粒度和负载均衡正则化,在稀疏度达到70%时仍保持高利用率,使Top-2路由精度提升了2.3个百分点。
03 性能表现卓越
在多项基准测试中,ZAYA1-base的表现与当前领先的开源模型相当甚至更优。
测试结果显示,它超越了Llama-3-8B和OLMoE,并在推理、数学和代码生成任务上与Qwen3-4B及Gemma3-12B性能相媲美。
特别值得一提的是,在数学和STEM推理方面,ZAYA1展现出独特优势。在CMATH和OCW-Math等专业数学基准测试中,其表现显著优于同类模型,甚至未经指令微调就能接近Qwen3专业版的水平。
这一成绩证明了其在科学计算和教育应用领域的潜力。
04 效率提升显著
AMD Instinct MI300X GPU的192GB高带宽内存在训练过程中发挥了关键作用。
它使得Zyphra能够避免昂贵的专家或张量切分,降低了复杂性并提高了整个模型栈的吞吐量。
Zyphra报告称,使用AMD优化的分布式I/O实现了超过10倍的模型保存速度提升,进一步增强了训练的可靠性和效率。
这种效率提升对于需要频繁保存检查点的大规模模型训练尤为重要。
05 未来发展与行业影响
Zyphra已宣布,ZAYA1的指令调优和RLHF版本计划于2026年第一季度发布,届时将开放API和权重下载。
这预示着更多开发者和企业能够亲身体验这一在AMD平台上训练出来的模型性能。
AMD表示,此次合作验证了MI300X与ROCm在大规模MoE训练中的可行性,未来将与更多云厂商复制“纯AMD”集群方案。
该公司的目标是到2026年,在训练超过1000亿参数的MoE模型时,实现与NVIDIA解决方案的总拥有成本持平。
AI芯片市场正在悄然生变。AMD高级副总裁Emad Barsoum表示:“AMD在加速计算领域的领导地位正在赋能像Zyphra这样的创新者突破AI领域的可能性边界。”
这仅仅是一个开始。随着AMD、IBM与Zyphra规划的下一代多模态基础模型提上日程,AI算力市场有望结束单一主导的局面,推动整个行业向更开放、多元化的方向发展。

关注 “悠AI” 更多干货技巧行业动态
