突破算力瓶颈!国产XTuner V1训练引擎助推AI模型效率飙升20%

AI广播站10小时前发布 小悠
5 0 0

上海人工智能实验室开源的新一代训练引擎,不仅在性能上反超国际主流方案,更让中国在大模型训练基础设施领域迈出自主化的重要一步。

9月8日,上海人工智能实验室(上海AI实验室)正式开源了新一代大模型训练引擎XTuner V1。这款历经多个月技术攻关的引擎,专为应对当前AI训练中的效率瓶颈问题而设计。

与华为昇腾团队联合优化的XTuner V1,在理论算力落后英伟达H800近20%的情况下,训练吞吐量反而超过5%,模型计算利用率(MFU)大幅提升20%以上。


01 技术突破:多维度优化实现性能飞跃

XTuner V1的核心突破在于它在显存、通信和负载均衡等多个维度进行了系统性优化。

相较于传统的3D并行训练方案,XTuner V1基于PyTorch FSDP进行开发,并针对FSDP通信量大的固有缺陷进行了一系列优化。

在显存优化方面,XTuner V1通过Async Checkpointing Swap技术,显著降低了显存峰值占用。该技术会在模型第i层前向计算开始时,将重计算需要的激活值从Device搬运到Host,释放对应显存。

通信掩盖是另一项创新。XTuner V1通过增加每层计算耗时,掩盖了参数聚合的通信耗时,大幅减少了计算空泡现象,提升了计算资源利用率。

02 应对复杂场景:专为超大模型而生

XTuner V1专门针对当前主流的混合专家(MoE)模型后训练需求设计。无需借助序列并行技术,就能支持200B参数量级MoE模型训练64K长度序列

对专家并行依赖小是现代MoE Dropless训练模式的重要特点。XTuner V1在长序列训练时受专家不均衡影响小,200B量级MoE无需专家并行,600B MoE只需节点内专家并行。

在大规模长短序列混训场景中,XTuner V1实现了2倍以上的提速效果。通过数据并行负载均衡,大幅减小了因序列长度不均衡导致的计算空泡。

03 硬件适配:与昇腾团队深度合作优化

为了进一步挖掘XTuner V1的训练方案上限,研究团队与华为昇腾技术团队在Ascend A3 NPU超节点上进行了联合优化。

昇腾384超节点通过高速总线连接多颗NPU,突破互联瓶颈,让超节点像一台计算机一样工作,更加适合FSDP训练。

与NVIDIA H800相比,昇腾超节点具有更高的通信带宽,最大可实现384颗NPU点到点超大带宽互联,FSDP All Gather耗时仅为H800的1/4~1/3,更容易实现计算-通信掩盖。

计算通信解耦是另一大优势。通过专用硬化调度和传输卸载,实现不占用计算核的高效数据通信,FSDP计算通信掩盖时不会影响计算速度。

04 开源共享:推动AI产业共同发展

上海AI实验室选择了开源策略,将XTuner V1免费向全球开发者和研究机构开放。这一决定旨在推动整个AI行业的技术进步,让更多团队能够受益于这项技术成果。

除了训练框架,书生大模型研发中使用的AIOps工具DeepTrace与ClusterX也将一并开源,为大规模分布式训练提供全方位保障

开源模式将加速XTuner V1的应用推广,同时也有利于技术的持续改进和完善。业内专家认为,这将为各行各业的智能化升级提供有力支撑。

上海AI实验室表示,他们将在近期发布XTuner V1的详细技术报告,全面介绍该引擎的技术架构、创新要点和应用指南。


计算资源有效利用率的提升,直接关系到训练成本的降低。XTuner V1在MFU指标上超过20%的大幅增长,将为AI研发机构节省大量计算资源开销。

随着大模型参数规模不断扩大,训练周期漫长、计算资源消耗巨大等挑战日益凸显。XTuner V1的效率提升能够有效缓解这些问题,为企业和研究机构降低AI应用的开发成本和时间投入。

未来,上海AI实验室将继续推进书生大模型及其全链条工具体系的开源,支持免费商用,同时提供线上开放服务。

关注 “悠AI” 更多干货技巧行业动态

© 版权声明
广告也精彩

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...