AI芯片格局生变,AMD平台成功训练大型MoE模型

AI广播站3周前更新 小悠
22 0 0

在AI大模型训练这片曾经由英伟达主导的领域,AMD完成了一次意义深远的突破。

全球首个完全基于AMD计算平台训练的大型混合专家模型ZAYA1正式亮相。这一由AI初创公司Zyphra与AMD、IBM共同合作的成果,向业界证明了AMD的Instinct MI300X GPU、Pensando网络和ROCm软件栈已具备支撑前沿AI模型训练的能力。


01 突破技术垄断

在快速发展的人工智能领域,一个长期存在的现实是:大多数大型AI模型都是在英伟达的GPU上训练的。AMD通过此次合作表明,其高性能计算平台已成为一个可行的替代选择。

Zyphra公司开发的ZAYA1模型是首个完全在AMD硬件上训练的大型混合专家模型

该模型在128个IBM云节点上训练,每个节点配备8张AMD Instinct MI300X GPU,总共使用了1024张显卡。

这一合作不仅展示了AMD芯片的计算能力,还验证了其Infinity Fabric互联技术和ROCm开放软件栈在大规模AI训练中的成熟度。

02 ZAYA1模型的技术特色

ZAYA1作为一种混合专家模型,其基础版本拥有83亿总参数,但每次推理仅激活7.6亿参数。

这种稀疏激活的设计使模型在保持强大表达能力的同时,大幅提升了计算效率。

该模型在预训练阶段使用了高达14T的token,采用了由易到难的课程学习策略,从通用网页数据逐步过渡到数学、代码和推理内容。

在架构上,ZAYA1引入了两项关键创新:CCA注意力机制结合了卷积和压缩嵌入注意力头,降低了32%的内存占用,并提高了18%的长上下文处理吞吐量。

线性路由MoE则通过细化专家粒度和负载均衡正则化,在稀疏度达到70%时仍保持高利用率,使Top-2路由精度提升了2.3个百分点。

03 性能表现卓越

在多项基准测试中,ZAYA1-base的表现与当前领先的开源模型相当甚至更优。

测试结果显示,它超越了Llama-3-8B和OLMoE,并在推理、数学和代码生成任务上与Qwen3-4B及Gemma3-12B性能相媲美。

特别值得一提的是,在数学和STEM推理方面,ZAYA1展现出独特优势。在CMATH和OCW-Math等专业数学基准测试中,其表现显著优于同类模型,甚至未经指令微调就能接近Qwen3专业版的水平。

这一成绩证明了其在科学计算和教育应用领域的潜力。

04 效率提升显著

AMD Instinct MI300X GPU的192GB高带宽内存在训练过程中发挥了关键作用。

它使得Zyphra能够避免昂贵的专家或张量切分,降低了复杂性并提高了整个模型栈的吞吐量。

Zyphra报告称,使用AMD优化的分布式I/O实现了超过10倍的模型保存速度提升,进一步增强了训练的可靠性和效率。

这种效率提升对于需要频繁保存检查点的大规模模型训练尤为重要。

05 未来发展与行业影响

Zyphra已宣布,ZAYA1的指令调优和RLHF版本计划于2026年第一季度发布,届时将开放API和权重下载。

这预示着更多开发者和企业能够亲身体验这一在AMD平台上训练出来的模型性能。

AMD表示,此次合作验证了MI300X与ROCm在大规模MoE训练中的可行性,未来将与更多云厂商复制“纯AMD”集群方案。

该公司的目标是到2026年,在训练超过1000亿参数的MoE模型时,实现与NVIDIA解决方案的总拥有成本持平。


AI芯片市场正在悄然生变。AMD高级副总裁Emad Barsoum表示:“AMD在加速计算领域的领导地位正在赋能像Zyphra这样的创新者突破AI领域的可能性边界。”

这仅仅是一个开始。随着AMD、IBM与Zyphra规划的下一代多模态基础模型提上日程,AI算力市场有望结束单一主导的局面,推动整个行业向更开放、多元化的方向发展。

关注 “悠AI” 更多干货技巧行业动态

© 版权声明
广告也精彩

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...