DeepSeek R1 技术细节全面解析

、深度解析

1. 通过⼈类反馈的强化学习

DeepSeek R1 技术细节全面解析

基本原理: 通过收集⼈类对模型⽣成轨迹的偏好反馈来训练奖励模型,进⽽指导强化 学习算法优化策略。

轨迹收集: 从数据中收集—系列状态-动作对组成的轨迹,对于⼤语⾔模型⽽⾔,每个 ⽣成的token可视为—个动作,上下⽂即为状态。

奖励模型训练:

⽅法: 展示两条轨迹给⼈类标注偏好,奖励模型学习为⼈类偏好的轨迹分配更⾼ 奖励

数学表达: 使⽤softmax函数计算两条轨迹被偏好的概率,通过梯度下降最⼤化⼈ 类偏好轨迹的概率

⽬标: Σ r(o,a1) > Σ r(o,a2), 即⼈类偏好的轨迹总奖励应更⾼

2. 群体策略优化算法

核⼼思想: 在响应组内进⾏相对⽐较,⿎励⽣成⾼于平均奖励的响应

优势计算:

标准化 DeepSeek R1 技术细节全面解析 ,其中μ为组内平均奖励, σ 为标准差

解释:正优势值表示响应优于平均⽔平,负值则相反

策略更新:

对正优势响应增加⽣成概率

对负优势响应减少⽣成概率

使⽤裁剪(clip)限制策略更新幅度,防⽌突变

3. ⼤语⾔模型

1)奖励模型

环境

DeepSeek R1 技术细节全面解析

基本要素:

状态: 语⾔模型的上下⽂

动作: ⽣成的下—个token

奖励: 由奖励模型根据⼈类反馈⽣成

训练流程:

智能体与环境(语⾔⽣成任务)交互

收集状态-动作轨迹

⼈类对轨迹进⾏偏好标注

训练奖励模型拟合⼈类偏好

DeepSeek R1 技术细节全面解析

两种奖励⽅式:

分步奖励: 为轨迹中每个状态-动作对⽣成奖励

整体奖励: 为完整响应⽣成单—奖励值

损失函数:

使⽤负对数似然,使奖励模型为⼈类偏好响应分配更⾼分数

通过sigmoid激活函数将输出限制在[0,1]范围

2)近端策略优化

DeepSeek R1 技术细节全面解析

 

关键组件:

策略⽐ DeepSeek R1 技术细节全面解析

裁剪函数: clip(rt(θ), 1-ε, 1+ε)限制更新幅度

KL散度惩罚: βDKL确保新策略不偏离参考策略太远

优势函数:

正优势⿎励动作,负优势抑制动作

通过奖励模型和值函数计算

训练⽬标:

最⼤化裁剪后的策略⽐与优势的乘积

同时最⼩化与参考策略的KL散度

4. 直接偏好优化

DeepSeek R1 技术细节全面解析

创新点:

⽆需显式训练奖励模型

直接根据⼈类偏好优化策略

优势:

简化RLHF流程

避免奖励模型被恶意利⽤(reward hacking)

更稳定地保持与原始模型的接近性

5. DeepSeek R1-Zero

1)奖励模型

l DeepSeek R1 技术细节全面解析

设计原则:

对数学问题验证答案正确性

对编程问题通过测试⽤例验证

对思维链和答案格式给予额外奖励

防作弊机制:

使⽤固定格式便于验证

多维度评估防⽌单—指标被优化

2)基础模型

DeepSeek R1 技术细节全面解析

训练流程:

使⽤监督数据预训练思维链能⼒

基于DeepSeek v3进⾏初始化

应⽤群体相对策略优化(GRPO)进⾏微调

关键创新:

组内相对⽐较机制

⽆需外部奖励模型

通过响应间的相对优势指导策略更新

二、知识小结

知识点 核⼼内容 考试重点/易混淆点 难度系数
⼈类反馈强化 学习(RLHF) 通过⼈类偏好数据训练奖励 模型,引导AI⽣成更符合⼈ 类期望的输出 奖励模型训练中的轨 迹对⽐与softmax概率 计算 ★★★★
奖励模型训练 收集⼈类偏好的轨迹对,⽤ 梯度下降优化使偏好轨迹获 得更⾼奖励 负对数损失函数与 Sigmoid激活的应⽤ ★★★
近端策略优化 (PPO) 通过优势函数调整策略,⿎ 励⾼奖励动作并限制策略更 新幅度 裁剪机制与KL散度惩 罚项的作⽤ ★★★★
群体相对策略 优化 在响应组内标准化奖励,优 先⽣成⾼于平均⽔平的输出 奖励标准化处理与组 内相对⽐较机制 ★★★★
DeepSeek-R1 模型训练 先监督训练思维链,再⽤强 化学习优化 奖励模型绕过与直接 偏好优化的区别 ★★★★
Transform架 构基础 作为⼤语⾔模型的核⼼组件 需提前掌握 注意⼒机制与位置编 码 ★★★
优势值计算 通过奖励模型和值模型判断 动作优劣 正值⿎励/负值抑制的 决策逻辑 ★★★

 

© 版权声明

相关文章

没有相关内容!

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...