AI芯片格局生变，AMD平台成功训练大型MoE模型

在AI大模型训练这片曾经由英伟达主导的领域，AMD完成了一次意义深远的突破。

全球首个完全基于AMD计算平台训练的大型混合专家模型ZAYA1正式亮相。这一由AI初创公司Zyphra与AMD、IBM共同合作的成果，向业界证明了AMD的Instinct MI300X GPU、Pensando网络和ROCm软件栈已具备支撑前沿AI模型训练的能力。

01 突破技术垄断

在快速发展的人工智能领域，一个长期存在的现实是：大多数大型AI模型都是在英伟达的GPU上训练的。AMD通过此次合作表明，其高性能计算平台已成为一个可行的替代选择。

Zyphra公司开发的ZAYA1模型是首个完全在AMD硬件上训练的大型混合专家模型。

该模型在128个IBM云节点上训练，每个节点配备8张AMD Instinct MI300X GPU，总共使用了1024张显卡。

这一合作不仅展示了AMD芯片的计算能力，还验证了其Infinity Fabric互联技术和ROCm开放软件栈在大规模AI训练中的成熟度。

ZAYA1作为一种混合专家模型，其基础版本拥有83亿总参数，但每次推理仅激活7.6亿参数。

这种稀疏激活的设计使模型在保持强大表达能力的同时，大幅提升了计算效率。

该模型在预训练阶段使用了高达14T的token，采用了由易到难的课程学习策略，从通用网页数据逐步过渡到数学、代码和推理内容。

在架构上，ZAYA1引入了两项关键创新：CCA注意力机制结合了卷积和压缩嵌入注意力头，降低了32%的内存占用，并提高了18%的长上下文处理吞吐量。

线性路由MoE则通过细化专家粒度和负载均衡正则化，在稀疏度达到70%时仍保持高利用率，使Top-2路由精度提升了2.3个百分点。

在多项基准测试中，ZAYA1-base的表现与当前领先的开源模型相当甚至更优。

测试结果显示，它超越了Llama-3-8B和OLMoE，并在推理、数学和代码生成任务上与Qwen3-4B及Gemma3-12B性能相媲美。

特别值得一提的是，在数学和STEM推理方面，ZAYA1展现出独特优势。在CMATH和OCW-Math等专业数学基准测试中，其表现显著优于同类模型，甚至未经指令微调就能接近Qwen3专业版的水平。

这一成绩证明了其在科学计算和教育应用领域的潜力。

AMD Instinct MI300X GPU的192GB高带宽内存在训练过程中发挥了关键作用。

它使得Zyphra能够避免昂贵的专家或张量切分，降低了复杂性并提高了整个模型栈的吞吐量。

Zyphra报告称，使用AMD优化的分布式I/O实现了超过10倍的模型保存速度提升，进一步增强了训练的可靠性和效率。

这种效率提升对于需要频繁保存检查点的大规模模型训练尤为重要。

Zyphra已宣布，ZAYA1的指令调优和RLHF版本计划于2026年第一季度发布，届时将开放API和权重下载。

这预示着更多开发者和企业能够亲身体验这一在AMD平台上训练出来的模型性能。

AMD表示，此次合作验证了MI300X与ROCm在大规模MoE训练中的可行性，未来将与更多云厂商复制“纯AMD”集群方案。

该公司的目标是到2026年，在训练超过1000亿参数的MoE模型时，实现与NVIDIA解决方案的总拥有成本持平。

AI芯片市场正在悄然生变。AMD高级副总裁Emad Barsoum表示：“AMD在加速计算领域的领导地位正在赋能像Zyphra这样的创新者突破AI领域的可能性边界。”

这仅仅是一个开始。随着AMD、IBM与Zyphra规划的下一代多模态基础模型提上日程，AI算力市场有望结束单一主导的局面，推动整个行业向更开放、多元化的方向发展。

关注 “悠AI” 更多干货技巧行业动态

文章版权归作者所有，未经允许请勿转载。

没有相关内容!

您必须登录才能参与评论！

立即登录

暂无评论...