DeepSeek R1 技术细节全面解析

AI模型测评库7个月前更新小悠

54 0 0

一 、深度解析

1. 通过⼈类反馈的强化学习

基本原理: 通过收集⼈类对模型⽣成轨迹的偏好反馈来训练奖励模型，进⽽指导强化学习算法优化策略。

轨迹收集: 从数据中收集—系列状态-动作对组成的轨迹，对于⼤语⾔模型⽽⾔，每个⽣成的token可视为—个动作，上下⽂即为状态。

奖励模型训练:

⽅法: 展示两条轨迹给⼈类标注偏好，奖励模型学习为⼈类偏好的轨迹分配更⾼奖励

数学表达: 使⽤softmax函数计算两条轨迹被偏好的概率，通过梯度下降最⼤化⼈类偏好轨迹的概率

⽬标: Σ r(o,a1) > Σ r(o,a2)，即⼈类偏好的轨迹总奖励应更⾼

2. 群体策略优化算法

核⼼思想: 在响应组内进⾏相对⽐较，⿎励⽣成⾼于平均奖励的响应

优势计算:

标准化 ，其中μ为组内平均奖励， σ 为标准差

解释:正优势值表示响应优于平均⽔平，负值则相反

策略更新:

对正优势响应增加⽣成概率

对负优势响应减少⽣成概率

使⽤裁剪(clip)限制策略更新幅度，防⽌突变

3. ⼤语⾔模型

1）奖励模型

环境

基本要素:

状态: 语⾔模型的上下⽂

动作: ⽣成的下—个token

奖励: 由奖励模型根据⼈类反馈⽣成

训练流程:

智能体与环境(语⾔⽣成任务)交互

收集状态-动作轨迹

⼈类对轨迹进⾏偏好标注

训练奖励模型拟合⼈类偏好

两种奖励⽅式:

分步奖励: 为轨迹中每个状态-动作对⽣成奖励

整体奖励: 为完整响应⽣成单—奖励值

损失函数:

使⽤负对数似然，使奖励模型为⼈类偏好响应分配更⾼分数

通过sigmoid激活函数将输出限制在[0,1]范围

2）近端策略优化

关键组件:

策略⽐

裁剪函数: clip(rt(θ), 1-ε, 1+ε)限制更新幅度

KL散度惩罚: βDKL确保新策略不偏离参考策略太远

优势函数:

正优势⿎励动作，负优势抑制动作

通过奖励模型和值函数计算

训练⽬标:

最⼤化裁剪后的策略⽐与优势的乘积

同时最⼩化与参考策略的KL散度

4. 直接偏好优化

创新点:

⽆需显式训练奖励模型

直接根据⼈类偏好优化策略

优势:

简化RLHF流程

避免奖励模型被恶意利⽤(reward hacking)

更稳定地保持与原始模型的接近性

5. DeepSeek R1-Zero

1）奖励模型

设计原则:

对数学问题验证答案正确性

对编程问题通过测试⽤例验证

对思维链和答案格式给予额外奖励

防作弊机制:

使⽤固定格式便于验证

多维度评估防⽌单—指标被优化

2）基础模型

训练流程:

使⽤监督数据预训练思维链能⼒

基于DeepSeek v3进⾏初始化

应⽤群体相对策略优化(GRPO)进⾏微调

关键创新:

组内相对⽐较机制

⽆需外部奖励模型

通过响应间的相对优势指导策略更新

二、知识小结

知识点	核⼼内容	考试重点/易混淆点	难度系数
⼈类反馈强化学习(RLHF)	通过⼈类偏好数据训练奖励模型，引导AI⽣成更符合⼈类期望的输出	奖励模型训练中的轨迹对⽐与softmax概率计算	★★★★
奖励模型训练	收集⼈类偏好的轨迹对，⽤梯度下降优化使偏好轨迹获得更⾼奖励	负对数损失函数与 Sigmoid激活的应⽤	★★★
近端策略优化 (PPO)	通过优势函数调整策略，⿎励⾼奖励动作并限制策略更新幅度	裁剪机制与KL散度惩罚项的作⽤	★★★★
群体相对策略优化	在响应组内标准化奖励，优先⽣成⾼于平均⽔平的输出	奖励标准化处理与组内相对⽐较机制	★★★★
DeepSeek-R1 模型训练	先监督训练思维链，再⽤强化学习优化	奖励模型绕过与直接偏好优化的区别	★★★★
Transform架构基础	作为⼤语⾔模型的核⼼组件需提前掌握	注意⼒机制与位置编码	★★★
优势值计算	通过奖励模型和值模型判断动作优劣	正值⿎励/负值抑制的决策逻辑	★★★

AI模型测评库

文章版权归作者所有，未经允许请勿转载。

没有相关内容!

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

DeepSeek R1 技术细节全面解析

深度解析DeepSeek V3

ERNIE 4.5 Turbo 128K深度测评：百度大模型的最新力作表现如何

相关文章

暂无评论