深度解析DeepSeek V3

AI模型测评库3个月前更新小悠

107 0 0

一 、深度解析DeepSeek V3

1. DeepSeek V3 的成本和效率

训练成本优势: 每万亿tokens仅需180K H800 GPU⼩时，按$2/GPU⼩时计算，总训练成本557.6万美元（约4000万⼈⺠币），远低于⾏业平均⽔平。

参数效率设计: 采⽤671B参数的混合专家(MoE)架构，但每个token仅激活37B参数，实际计算量仅为总参数的5.5%。

训练数据规模: 在14.8T⾼质量token上完成训练，其中预训练成本占⽐最⾼( 5.328M），上下文扩展(0.238M)和后训练($0.01M)成本显著降低。

2. DeepSeek V3的性能

性价⽐突破: 使⽤阉割版H800显卡（⾮顶级H100）取得SOTA效果，打破”必须堆算⼒ ” 的⾏业认知，实现”中等⼒⽓出奇迹”的效果。

⾏业影响 : 该突破直接影响了英伟达股价，证明通过⼯程优化可降低对⾼端显卡的依赖。

研发背景: 由量化交易公司幻⽅（⾮传统互联⽹公司）研发，将⾦融领域的⾼效计算经验迁移⾄AI领域。

3. DeepSeek V3的训练特点

1）⾸个使⽤FP8混合精度训练的⼤号MoE模型

技术领先性: 在开源社区⾸个实现FP8混合精度训练，早于英伟达官⽅对该技术的商⽤化进度。

⼯程价值: 将理论探索直接落地，验证FP8作为未来训练数据格式的可⾏性，相⽐传统 FP16/FP32显著降低显存占⽤。

架构选择: 延续LLaMA和GPT-4验证过的MoE架构，平衡模型容量与实际计算开销。

2） 16路流⽔线并⾏（Chimera）

⽓泡优化: 采⽤Chimera技术将流⽔线并⾏的空闲等待时间最⼩化，相⽐传统⽅法提升约30%训练效率。

⼯程考量: 特别针对⼤规模MoE模型设计，解决专家分布式部署时的负载不均衡问题。

3）数据并⾏（ZeRO1）

内存优化: 通过ZeRO1策略实现显存⾼效利⽤，⽀持在有限硬件资源下训练超⼤规模模型。

组合策略: 与专家并⾏、流⽔线并⾏形成三维并⾏⽅案，总并⾏度达64 × 16 × N（数据并⾏维度）。

4）每个token激活4个节点上的专家，减半跨节点通信量

通信优化: 精⼼设计专家路由策略，使每个token仅需访问4个计算节点（⽽⾮全部64 个），将跨节点通信量降低50%。

⼯程启示: 该优化证明分布式训练中通信效率可能⽐计算效率更关键，为⼤数据开发者转向AI领域提供技术切⼊点。

⻓⽂本突破: 通过两阶段扩展训练（4K→32K→ 128K），在”Needle InA HayStack”测试中保持全上下⽂窗⼝的稳定性能。

实⽤价值: 突破传统⻓⽂本模型”后半段质量下降” 的局限，实现真正的128K可⽤上下⽂，⽽⾮理论⽀持。

4. 推理部署

1）推理部署

PD分离: DeepSeek-V3采取PD分离的⽅式，分别应对prefill和decode两阶段的挑战。

Prefill阶段: 使⽤32个GPU， attention模块采⽤4路张量并⾏+8路数据并⾏， MOE模块采⽤32路专家并⾏。

Decode阶段: 使⽤320个GPU，采取320路专家并⾏(256个⼩专家+64个热点专家)，有效降低解码时延，并缓解负载不均衡的问题。

2）推理部署⼆

Prefill阶段并⾏策略:

Attention部分: TP=4(along with SP), DP=8。设置较⼩的TP数量4，以尽可能通过计算与通信重叠掩盖all-reduce通信耗时。

MOE部分: EP=32，平均每个rank 10个experts，⽬的是尽可能增加每个expert的 batch size，提⾼MFU利⽤率。

冗余专家策略: 对⾼负载专家进⾏复制，在不同rank之间冗余存放，根据时域内的激活的tokens数量动态调整。DeepSeek-V3在Prefill阶段使⽤了32个冗余专家。

Decode阶段并⾏策略:

Attention部分: TP=4(along with SP), DP=80。

MOE部分: EP=320。其中256个GPU每个rank保留—个专家， 64个GPU负责冗余专家和shared专家。

专家分布与负载均衡优化: 冗余专家的选择策略与prefill阶段—致，也是根据时域内的激活的tokens数量动态调整。

5. 主要创新点

Multi-Head Latent Attention (MLA): ⼩⽶罗浮⼒搞出来的东⻄，是DeepSeek V3的主要贡献之—。

DeepSeek MoE Feed-forward Network: 个⼈认为是MOE的—个⼯程化版本。

多Token预测: 也是—个⽐较⼤的创新，去年六七⽉份新出的技术。

FP8训练: ⾸创，⽤于提⾼训练效率。

这四个技术不仅适⽤于DeepSeek V3，未来通讯领域的下—代模型也可能逐渐采⽤这些技术。

6. DeepSeek V3的主要创新点

1） Multi-Head Latent Attention

l MLA技术概述

MLA开发者: MLA是由罗福利开发的。

开发者背景: 罗福利是中国⼈，与苏建林—样，都是相对年轻的开发者（⼤约出⽣于1993-1994年）。

技术特点: 罗福利的技术虽然很厉害，但相较于苏建林的旋转位置编码技术， MLA 更多是在现有技术基础上的改造，⽽苏建林的技术则是从零到—的原创，且通⽤性极强。

应⽤场景: MLA技术主要⽤于解决模型推理时显存占⽤⼤的问题，特别是在使⽤多头注意⼒机制的情况下。

MLA与MHA 、GQA 、MQA的⽐较

显存占⽤ :

MHA: 每个token缓存需要2nhdhl的显存。

GQA: 通过压缩技术减少显存占⽤，但效果有所折扣。

MQA: 更极端的⽅法，将多个压缩成—个，显存占⽤进—步减少，但效果折损更⼤。

MLA: 既能保证效果，⼜能显著降低显存占⽤。

性能⽐较: MHA> GQA> MQA， MLA在性能和显存占⽤之间找到了—个平衡点。

MLA 的计算过程

Query侧:

输⼊向量ht通过WDQ变换成多抽头向量c。

加上旋转位置编码特征，组合成qt。

Key和Value侧:

输⼊向量ht通过WDKV变换，再进⾏压缩和旋转位置编码操作，⽣成kt和vt。

相似度计算:

Query和Key计算相似度，通过加权求和得到Attention输出。

缓存内容:

MLA只缓存压缩后的内容，显著减少显存占⽤。

MLA的显存优化

显存占⽤减少:

通过压缩技术， MLA将每个token的显存占⽤从2nhdhl降低到约4 .5dhl。

计算量优化:

虽然MLA引⼊了额外的矩阵乘法，但可以通过预计算合并矩阵，实际计算量增加不⼤。

技术来源:

MLA的显存优化技术部分来源于之前的技术，但进⾏了更多的⼯程优化。

其他优化:

MLA还结合了DC的MoE（ Mixture of Experts）技术，进—步提升性能。

2） DeepSeekMoE

MoE架构特点: 由于稀疏性，单个token的计算量不⼤，可以在更低成本下完成同等模型的预训练，推理速度更快。但引⼊了多个expert（ FFN层），导致参数量和显存占⽤增加，同时引⼊了专家并⾏和通信开销。

优化⽬标: 降低通信次数，提⾼计算利⽤率；保证各expert在推理/训练时的负载平衡，避免集中在某个expert上导致计算利⽤率下降。

3）路由策略

专家数量与任务覆盖类型

专家数量与覆盖任务类型关系: —共E个专家，可以⽐较好覆盖的任务类型只有E 种。如果每次可以路由N个专家，那么可以覆盖的任务类型就包括CEN种。

具体数量: Nr（可路由的专家数量）=256， Ns（通⽤专家数量）=64，总专家数量 =320。

专家激活⽅案

激活⽅案: 每次激活top k的专家，例如可以激活四个左右的专家。

得分计算与BI动态调整

得分计算:通过计算专家向量与输⼊的乘积来得到专家契合度得分。

BI动态调整: 引⼊BI来动态调整得分，如果某些专家在训练时经常不被激活，则稍微调⼤BI，使其也能参与进激活中。但BI只在选择专家时⽤到，不参与权重计

算。

负载均衡策略介绍

负载均衡策略: 为了保证每个专家都能被照顾到，引⼊负载均衡策略。

l 负载策略的作⽤与实现

作⽤ : 降低经常被激活的专家的下次被选中的概率，保证训练时各专家都能被均匀激活。

实现: 在正常的损失函数后⾯新加—个辅助损失，即负载策略。通过计算每个专家被激活的次数和概率，来调整其在下次被选中的概率，实现负载均衡。其中，

fi表示专家i被激活的次数， Pi表示专家i被激活的概率。辅助损失函数为LBa1 = αΣ i= 1 Nr fiPi，通过优化此损失函数来实现负载均衡。

4）丢弃策略

l l 丢弃策略概述

设备级策略: DeepSeek的drop策略不是expert级的，⽽是device级的，针对设备进⾏token丢弃

核⼼⽬标: 防⽌专家负载过重产⽣⽊桶效应，避免拖慢整个系统

丢弃策略的具体步骤

计算每个设备的平均预算容量

丢弃给到该设备且亲和性最差的token，直到达到预算容量

确保⾄少10%的训练token不会被丢弃

丢弃策略中的专家饱和概念

饱和机制: 每个专家设有token上限，防⽌单个专家处理过多token

负载均衡: 通过丢弃策略实现专家间的负载均衡，避免某些专家过载

丢弃策略中的token上限与丢弃⽐例

上限设置: 在8卡设备上，会丢弃亲和⼒得分最低的token

丢弃限制: 最多丢弃10%的token，保证90%的token能参与训练

专家计算效率的优化⽅法

矩阵合并: 将多个专家(FFN)的矩阵并⾏拼成—个⼤矩阵—次性计算

效率提升: 相⽐逐个专家计算，合并计算能显著提⾼计算效率

丢弃策略中的token数量—致性要求

历史要求: 早期MoE需要保证每个专家对应的token数量相同

⻓度限制: 不同专家处理的token序列⻓度需要—致

硬件突破对丢弃策略的影响

H800⽀持: 新—代硬件(H800)可以⽀持不同⻓度的token序列

计算⾰新: 允许不同⻓度的token序列作为—个整体进⾏预计算

丢弃策略中的稀疏性问题

稀疏计算: 该算法会产⽣⼤量稀疏计算

密度局限: 计算密度不⾼，这是当前策略的—个局限性

5） FP8模型

FP8模型概述

⾸创性: DeepSeek-V3是⾸个开源使⽤FP8技术的模型，开创了8位浮点数训练的先河

技术背景: 传统训练使⽤FP32或FP16混合精度，存在显存占⽤⼤、通信量⼤、计算速度慢等问题

l FP8模型的优势与问题

三⼤优势:

内存节约: 显存占⽤量显著减少

通信优化: 减少数据传输量

计算加速: 低精度运算速度更快

核⼼问题:

精度不⾜: 模型训练后期梯度变化微⼩，低精度易导致四舍五⼊误差

量化误差: 粗粒度量化会因异常值增加误差

FP8的两种类型： E4M3与E5M2

E4M3格式:

结构: 4位指数+3位尾数

特点: 数值更精确但动态范围较⼩

E5M2格式:

结构: 5位指数+2位尾数

特点: 动态范围较⼤但精度较差

硬件⽀持: 英伟达H800 、H100 、4090等显卡均⽀持这两种格式

DeepSeek V3中的FP8训练

统一格式: 全程使⽤E4M3格式保持数值精确性

混合精度:

前向传播：输⼊转FP8与权重矩阵乘法，结果⽤FP32保存

反向传播：梯度计算使⽤ FP8，结果转FP32保存

创新设计: 采⽤细粒度per-tile(1×128)和per-group(128×128)量化降低误差

FP32转FP8的步骤

两步转换:

缩放： Unscaled FP32 = FP32 / scale

转换： FP8 = Convert(Unscaled FP32)

示例: 数组[1000.0,23.0,123.123]除以scale=1000.0/448进⾏压缩

原理: 通过等⽐映射将FP32数值范围压缩到FP8可表示范围内

FP8的量化⽅式

量化粒度:

per-tensor: 整个张量统—量化（误差最⼤）
per-token: 按token单独量化
group-wise: 将token分段量化
tile-wise: 按区域块量化
精度权衡: 量化区间越细精度越⾼，但计算复杂度也越⾼
实例说明: 向量[0.1,0.2,100,200]整体量化会丢失⼩数值信息，分段量化可保留区分度

FP8矩阵乘法与量化操作

操作流程:

将输⼊向量和权重矩阵均分128⼤⼩的块
每块使⽤独⽴scale因⼦进⾏量化
量化后的FP8块进⾏矩阵乘法
结果乘回scale因⼦解量化

计算优化: 在Tensor Core上执⾏1× 128与128× 128的FP8矩阵乘

FP8加法中的精度损失问题

典型问题: 如0.0013+0.001在两位精度下会丢失0.0003
影响: 训练后期梯度变化微⼩，精度不⾜会导致参数停⽌更新
根本原因: 低精度浮点数的有效位数有限，⼩数位易被截断

l DeepSeek在FP8加法中的处理

分段累加:

先⽤FP8累加4次中间结果（如C1到C4）
将FP8中间结果转FP32再进⾏最终累加

创新点: ⾸次开源这种混合精度累加⽅法

优势: 平衡计算效率与精度，避免纯FP32计算带来的过重负担

6）内容总结

三⼤创新:

MoE技术: 提⾼推理速度，降低成本（每次仅激活37B参数）
MLA架构: 减少KV缓存压⼒
FP8训练: ⾸家开源⽅案，显著降低训练成本

成本优势: 每万亿token训练仅需180K H800 GPU⼩时，总成本约557.6万美元

设计理念: 在算⼒受限条件下追求成本与效率的最佳平衡

7. 总结

1） FP8技术优势

计算速度: FP8 Tensor Cores⽐16-bit Tensor Cores快2倍

内存优化: 减少memory movement，提升数据传输效率

部署便利: 若模型已在FP8中训练，部署更加⽅便

动态范围: FP8拥有更宽的动态范围

转换效率: FP8到FP16/FP32/BF16的转换电路设计更简单直接，相⽐INT8/UINT8到FP的转换节省了乘法和加法运算开销

2）混合精度训练

后续课程: 将专⻔安排课程讲解FP8格式及混合精度运算

参考资料: 可通过助理⽼师获取相关公开课视频，或在B站搜索观看

3） DeepSeek-V3核⼼技术

模型规模: 总参数671B，每个token激活37B参数 l 关键技术:

MoE架构: 提⾼推理速度，降低成本
MLA技术: 减少缓存压⼒
FP8应⽤: 开源第—家降低训练成本
硬件配置: 推理使⽤320卡36B配置

4）混合精度训练框架

量化策略: 采⽤细粒度量化策略，包括1 × N元素分组或块状分组

存储优化: 在训练过程中缓存和分发FP8激活值，同时以BF16存储低精度优化器状态 l 验证范围: 在DeepSeek-V2-like和RepsnokV2模型上验证了FP8混合精度训练框架

5）评估框架

评估基准:

多学科选择题: MMLU系列、C-Eval 、CMMLU等
语⾔理解推理: HellaSwag 、PIQA 、ARC等
闭卷问答: TriviaQA 、NaturalQuestions
阅读理解: RACE 、DROP 、C3等
数学能⼒ : GSMSK 、MATH 、MGSM等
编程能⼒ : HumanEval 、LiveCodeBench等

评估⽅法: 采⽤困惑度评估和⽣成式评估两种⽅式

二、知识小结

知识点	核⼼内容	技术亮点/创新点	应⽤价值
DeepSeek V3 模型特点	国内最优秀的开源模型，成本与效果平衡突出	训练成本仅5500万美元，推理时仅激活37B参数	降低⼤模型训练⻔槛，提升商业化可⾏性
模型架构创新	采⽤混合专家模型(MoE)设计	671B总参数仅激活 37B， 64路专家并⾏+16路流⽔并⾏	实现⾼参数规模下的⾼效推理
训练技术创新	⾸创FP8混合精度训练⽅案	E4M3格式全程应⽤，计算-存储分离优化	训练效率提升 30%+，显存占⽤减少50%
注意⼒机制优化	多抽头潜在注意⼒(MLA)技术	显存占⽤降⾄4.5DHL(原 2nhDHL)	⻓⽂本处理能⼒突破， 128k上下⽂保持稳定
推理架构设计	预计算(pro)与解码(decode)分离	32卡pro阶段+320卡 decode阶段流⽔线	吞吐量提升5 倍， TTFT指标优化
⼯程优化策略	动态专家负载均衡机制	冗余专家副本+亲和⼒得分调整	通信成本降低 60%，集群利⽤率达90%+
硬件适配⽅案	基于阉割版H800 显卡开发	未使⽤H100即实现SOTA 效果	突破算⼒封锁，国产化适配性强
⾏业影响分析	打破”⼤⼒出奇迹 “范式	中等算⼒出顶级效果（四两拨千⽄）	导致英伟达股价波动，改变⾏业研发⽅向