Transformer 18. DeepSeek-R1 解析:用强化学习激励推理能力——架构、训练与「为什么看起来更聪明」

张开发
2026/4/19 14:52:25 15 分钟阅读

分享文章

Transformer 18. DeepSeek-R1 解析:用强化学习激励推理能力——架构、训练与「为什么看起来更聪明」
摘要本文在 Transformer 10. Decoder Only Transformer 架构以及每一步骤的详细计算、Transformer 12. LLaMA 架构介绍以及与 Transformer 架构对比、Transformer 13. DeepSeek LLM 架构解析、Transformer 14. DeepSeekMoE 架构解析、Transformer 15. DeepSeek-V2 架构解析 与 Transformer 16. DeepSeek-V3 架构解析 的基础上介绍DeepSeek-R1技术报告的核心脉络。R1 系列含DeepSeek-R1-Zero与DeepSeek-R1的主干仍是Decoder-only 大语言模型论文的核心贡献在于用可验证任务上的强化学习RL与多阶段后训练在不依赖大规模人工标注推理轨迹的前提下激励模型自发涌现反思、验证、调整策略等推理行为并在数学、代码竞赛、STEM 等可自动判分的任务上取得强表现。全文将专门回答读者常见疑问推理模型在「架构」上和普通聊天模型差在哪里以及它并非「多读到隐藏信息」而是如何在机制上显得「想得更深」。细节公式与阶段划分以论文 DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 为准对强化学习、涌现、GRPO、蒸馏作循序渐进的导读给出与训练管线的概念索引。关键词DeepSeek-R1DeepSeek-R1-Zero推理模型强化学习GRPO冷启动蒸馏Chain-of-ThoughtDecoder-only论文DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement LearningDeepSeek-AI, 2025arXiv:2501.12948理解要点先读这四句(1)R1 并没有换一套「推理专用网络层」主体仍是与 Transformer 16. DeepSeek-V3 架构解析见文末相关文档第 6 条同族的Decoder-only Transformer如 MLA MoE 骨干。(2)差异主要在训练目标与数据管线RL 用对错可判定的奖励引导长链思考行为机制见§4.1。(3) 推理时「更深」在工程上常体现为生成更多中间 token显式思维链等价于测试时算力/步数变多而非模型突然能访问库外秘密知识。(4)R1-Zero展示「纯 RL 也能涌现推理形态」辨析见§4.2DeepSeek-R1在之上加入冷启动与多阶段 SFT/RL兼顾可读性与通用对话。若要搞懂GRPO、蒸馏请读§4.3、§4.4。1. 在 DeepSeek 家族里R1 处于什么位置Transformer 13. DeepSeek LLM 架构解析稠密 Decoder强调训练策略与扩展。Transformer 14. DeepSeekMoE 架构解析 / Transformer 15. DeepSeek-V2 架构解析 / Transformer 16. DeepSeek-V3 架构解析在稀疏 MoE MLA路线上把规模、效率、稳定性推上去。DeepSeek-R1在已有强基座论文语境中基于 DeepSeek-V3 系列能力之上回答另一个问题怎样系统性地把「会做题、会写对代码」的推理行为练出来并尽量少依赖人工逐步推理标注因此读 R1 论文时最适合的心态是把它当作「后训练与 RL 配方论文」而不是「新注意力机制论文」——RL / 涌现 / GRPO / 蒸馏等名词的详细导读见§4流水线与 §4 的对照见§7。2. 推理模型在「架构」上和普通模型有什么区别2.1 直接结论骨干网络同构没有魔法层对大多数「推理版」部署而言权重所对应的神经网络结构仍是Embedding → 多层 Decoder自注意力 FFN/MoE→ 语言模型头LM Head与 Transformer 10. Decoder Only Transformer 架构以及每一步骤的详细计算 一致。用更直白的话说没有「旁边再盖几栋楼」主网络还是那一串 Decoder 层叠上去并没有再并联一条专门叫「推理塔」的支路、也没有另起一座「世界模型塔」或装一台「符号推理引擎」和主塔并排算——推理用的还是同一套注意力与 FFN/MoE只是算出来的内容先写长推导、再给答案变了。和普通聊天模型的架构差异通常只体现在外围协议上例如提示模板要求模型先在思维链区块内写中间过程再输出最终答案具体分隔符依 API/模板而定常见为成对特殊标记包裹解码策略允许更长max_new_tokens、不同停止条件以容纳长思维链产品侧路由把题类请求导向「推理模型」endpoint——这是系统架构不是Transformer 块结构变了。实际例子同一个 671B MoE 骨干既可以训成「短答聊天偏好」也可以在后训练阶段被 RL 激励成「先长篇推导再给出可判定答案」的行为。变的是策略policy与输出分布不是层类型从 Attention 换成别的。2.2 一张表对齐「感知差异」与「真实差异」维度常规模型泛指对话 SFT 模型推理向模型如 DeepSeek-R1Transformer 块Decoder 层堆叠同类块具体宽度/深度随基座版本而定参数是否「多一套推理参数」无一般无蒸馏到小模型时是单套权重训练目标以模仿人类回复为主SFT / DPO 等额外强调可验证任务上的RL 奖励、冷启动数据、多阶段混合典型输出形态短答、直接结论长CoT链式思考 最终答案测试时成本往往较少 token往往更多 token中间步骤显性展开3. 为什么说推理模型能「挖掘更深」——机制上指什么这里要把直觉语言翻译成可检验的三件事避免神秘化。3.1 「更深」首先是测试时计算test-time compute变多自回归模型每生成一个 token都要跑一遍或增量跑整塔前向full stack forward。若推理模型被训练成先写出大量中间步骤再收敛到答案则在同一道题上消耗的前向次数 / FLOPs / 延迟往往远高于「一句话回答」。从优化角度这类似于用更多离散步骤在隐空间做局部搜索、验算、回溯——深度来自序列长度与生成过程不是来自「每层隐藏状态自动比别的模型多一个物理维度」。3.2 RL 在可验证环境里显式奖励「做对」数学答案对错、代码是否通过单测往往可以自动判分。R1 的路线把这类信号做成奖励用策略梯度类方法更新模型使高奖励行为例如先分解问题、再检验概率上升。这与仅靠「模仿人类范文」不同模仿容易学到措辞RL则对结果正确性有直接压力。RL 在 LLM 里具体怎么建模、梯度怎么来见下文§4.1「涌现」在论文里指什么见§4.2。3.3涌现emergent指的是行为模式不是「突然联网」论文强调在R1-Zero路径上即使不先喂大量人工推理轨迹纯 RL 也能观察到推理样式的生长。更细的辨析与「神秘化」划清界限见§4.2。理解要点把「更深」理解成(a) 更长的显式推理文本(b) 对可验证目标的强化信号© 大参数空间里可学到的计算策略会比「推理模型多了一层看不见的大脑」更准确。若要系统搞懂 (b)© 背后的算法语言请读§4。4. 概念深入强化学习、涌现、GRPO 与蒸馏循序渐进本章节把 R1 论文里反复出现的四个词讲清楚RL、涌现、GRPO、蒸馏。读完后再看 §5、§6 的流水线会顺畅很多。4.1 强化学习RL套在「大模型生成答案」上是什么样子4.1.1 三个名词先对齐智能体、环境、奖励在经典 RL 里有一个智能体agent反复与环境environment交互智能体做动作action环境返回奖励reward和下一状态。智能体的目标是长期来看让累积奖励尽可能大。套到语言模型解题上与 R1 设定一致的一种抽象RL 概念在「模型做数学题 / 写代码」里常怎么对应智能体当前的策略模型π θ \pi_\thetaπθ​就是一个会自回归生成 token 的 Decoder-only LM一次交互 / 回合给定题目promptx xx模型采样生成一整段输出y yy可包含很长思维链 最终答案动作逐步地选下一个 token或等价地选整段y yy训练时用随机策略采样得到多样性环境规则判定器例如数学答案是否等价于标准答案、代码是否通过单测不需要再训练一个「环境神经网络」奖励r rr标量反馈对 高分错 低分可叠加格式分是否把最终答案放在指定结构中等注意这里没有要求环境像游戏那样一步步给中间奖励很多设置里整段生成结束后才给一次r rr这叫稀疏奖励。稀疏时信用分配credit assignment更难到底是哪一个中间句子让答案变对的RL 仍可通过策略梯度把「最终对错」回传到各 token 的生成概率上期望意义下只是方差大所以需要好的基线baseline或相对优势——这正是GRPO要解决的问题§4.3。4.1.2 与监督学习SFT对照目标函数在优化什么SFT监督微调数据集里有人类或教师写好的标准回复y ~ \tilde{y}y~​。对每个 token 做交叉熵等价于最大化log ⁡ π θ ( y ~ ∣ x ) \log \pi_\theta(\tilde{y}\mid x)logπθ​(y~​∣x)在真实 token 上的和。模型被训练成模仿示范文本。RL不仅要求像某段固定文本而要求整段y yy在规则下拿高分。优化的是期望奖励E y ∼ π θ ( ⋅ ∣ x ) [ R ( x , y ) ] \mathbb{E}_{y\sim\pi_\theta(\cdot\mid x)}[R(x,y)]Ey∼πθ​(⋅∣x)​[R(x,y)]可再减 KL 惩罚等防止偏离太远。直觉SFT 像临摹字帖——笔画要和帖上一样RL 像考试给分——字可以不同写法对了就给分。R1 强调可验证考试数学/代码就是为了奖励客观、难扯皮。4.1.3 策略梯度一句话知道它在干什么即可设对某个 promptx xx采样得到输出y yy环境给奖励R ( x , y ) R(x,y)R(x,y)。希望增大「能带来高奖励的生成路径」的概率。策略梯度定理给出方向沿着∇ θ E y ∼ π θ [ R ( x , y ) ] \nabla_\theta \,\mathbb{E}_{y\sim\pi_\theta}[R(x,y)]∇θ​Ey∼πθ​​[R(x,y)]的方向更新θ \thetaθ。实现上常用REINFORCE类估计用采样轨迹算一个优势advantageA AA高奖励的轨迹A 0 A0A0低奖励A 0 A0A0再对生成到的 token 的log ⁡ π θ \log \pi_\thetalogπθ​加权做梯度上升。GRPO 做的事就是不用单独训练 Critic也能给出一个实用的A AA§4.3。实际例子同一道奥数题模型采样出 16 份不同长解答其中 3 份答案对、13 份错。RL 会提高那 3 条路径上各 token 的概率压低那 13 条——不是死记某一份范文而是在探索中学会「像那 3 条那样想」的倾向。4.2 涌现emergent在 R1 语境下请这样理解4.2.1 「涌现」不是玄学标签在复杂系统里涌现通常指整体表现出某种可识别的宏观模式而你没有把该模式逐行写进底层规则。例如鸟群没有「队长」但群体像有秩序蚁群没有中央大脑但能筑巢。在R1-Zero报告里「涌现」指的是观测现象没有先用大量人工写的「反思、验算、换一种方法」模板做 SFT仅靠规则奖励 RL训练过程中逐渐出现类似人类推理稿的行为自我检查、重试、分步等。4.2.2 这不意味着什么不意味着模型突然连上互联网或读到隐藏数据库。不意味着一定出现「真正的理解」或意识——论文讨论的是可测量的行为与基准分数。不保证永远「只涌现好东西」R1-Zero 也会涌现重复、语言混杂、难读等副产品所以需要 R1 的冷启动与多阶段训练。4.2.3 一个可用的理性解释给工程师的心态大模型参数空间极大在 RL 压力下策略会往能提高期望奖励的吸引子移动。对数学/代码而言中间推理、验证、改错往往和正确率正相关于是优化过程会偏好这些行为模式——不是魔法是目标函数 探索在起作用。模型容量不够或奖励设计太糟时这种模式可能涌现不出来或走偏reward hacking。理解要点把论文里的「涌现」读成「在训练中自发长出某种可重复的行为模式」而不是「模型顿悟了宇宙真理」。4.3 GRPOGroup Relative Policy Optimization相对谁优化什么4.3.1 先回忆 PPO 类方法在愁什么PPOProximal Policy Optimization是大模型 RL 常用框架策略网络就是 LM生成样本用优势函数A t A_tAt​判断「这一步比平均好还是坏」再做带 clip 的目标函数避免一步更新太狠把模型训崩。经典Actor-Critic里A AA常依赖价值网络V ϕ ( s ) V_\phi(s)Vϕ​(s)Critic去估计「从状态s ss出发以后能拿多少分」。问题很实际Critic 也要很大、很难训稳、和 LM 一起训成本翻倍。4.3.2 GRPO 的核心想法同一道题多人答卷比组内排名GRPO的思路对同一个 promptx xx用当前策略独立采样G GG条完整回答y ( 1 ) , … , y ( G ) y^{(1)},\ldots,y^{(G)}y(1),…,y(G)。每条算奖励r ( i ) R ( x , y ( i ) ) r^{(i)}R(x,y^{(i)})r(i)R(x,y(i))如对错 0/1或含格式奖励。在这一组内部构造相对优势例如示意具体归一化以论文为准A ^ ( i ) r ( i ) − m e a n ( { r ( 1 ) , … , r ( G ) } ) s t d ( { r ( 1 ) , … , r ( G ) } ) ϵ , \hat{A}^{(i)} \frac{r^{(i)} - \mathrm{mean}(\{r^{(1)},\ldots,r^{(G)}\})}{\mathrm{std}(\{r^{(1)},\ldots,r^{(G)}\}) \epsilon},A^(i)std({r(1),…,r(G)})ϵr(i)−mean({r(1),…,r(G)})​,或仅用减组内均值作为中心化。直觉不比「全世界平均」只比「这次一起采样的同班同学」——考得比本组平均好就加强这条轨迹上 token 的梯度比平均差就减弱。然后把这些样本喂给类似 PPO 的带 clip 的策略目标并常配合KL 到参考模型的惩罚防止漂移过快。这样不再需要单独训练 Critic来估V ( s ) V(s)V(s)省参数、省训练不稳定源。4.3.3 为什么这对「可验证任务」特别合拍奖励r rr客观对/错组内方差有意义同一题有的做对有的做错A ^ ( i ) \hat{A}^{(i)}A^(i)有正有负。大规模 rollout做题可以并行采很多组GRPO 每组的相对比较降低方差相对绝对标量奖励直接回传而言。4.3.4 局限若整组全错或全对组内方差为 0这一批上的相对优势信号弱需要依赖其他 batch 或额外技巧。奖励若设计不好模型会钻空子reward hacking例如堆砌无效符号骗格式分——R1 强调规则 多阶段部分为此。一句话GRPO 用「同 prompt 多采样」代替「学一个 Critic」来估好坏再套 PPO 式稳定更新。4.4 蒸馏distillation大模型推理轨迹如何教小模型4.4.1 「蒸馏」在深度学习里有两张常见脸孔软标签蒸馏Hinton 经典教师对各类别给概率分布学生不仅学硬标签还学软分布暗含「类间相似」。序列级行为克隆教师对输入x xx输出整串 tokeny t e a c h e r y^{\mathrm{teacher}}yteacher可极长学生用标准语言建模损失去最大化log ⁡ π s t u d e n t ( y t e a c h e r ∣ x ) \log \pi_{\mathrm{student}}(y^{\mathrm{teacher}}\mid x)logπstudent​(yteacher∣x)即强迫小模型一步步复现教师的生成包括中间的思维链。R1 报告里的推理蒸馏主要是第二种用DeepSeek-R1大在大量 prompt 上生成长推理 答案筛选后作为监督数据训练Qwen / LLaMA 等较小稠密模型。4.4.2 小模型到底「学」到了什么显式层面分词序列上的条件概率被拉向教师——包括「先写推理、后写结论」的格式与局部措辞习惯。能力层面若教师轨迹质量高正确、简洁、可泛化学生相当于在更rich 的示范上做 SFT往往在同分布题型上接近教师表现容量上限仍受小模型参数限制不能指望 1.5B 无限逼近 671B。4.4.3 数据从哪来、为什么要筛教师模型会大量采样其中很多错答或啰嗦。实务上常用规则或额外模型过滤只保留高奖励轨迹再蒸馏——否则学生学了一嘴错误套路。4.4.4 与「直接用 RL 训小模型」比蒸馏便宜、稳定就是 SFT。RL 训小模型也可行但探索成本高、奖励稀疏。工业上常大模型 RL 小模型蒸馏组合重活给大模型做小模型吃精选示范。实际例子大模型写 2000 token 思维链解出一题蒸馏时小模型 loss 对这 2000 token逐 token 对齐可带 mask 只强调关键段。小模型没有经历同样 RL 探索但行为被拉向「会写长链且常对」的分布。5. DeepSeek-R1-Zero纯强化学习路径在验证什么DeepSeek-R1-Zero的设计意图很「极端」尽量不用人类标注的链式推理数据做冷启动直接在可判定任务上做大规模 RL。现象与意义读论文图表时的抓手模型会自发出现较长推理片段、自我检查、尝试替代方法等可读作推理策略的输出在数学 / 代码等可验证基准上性能可超过仅依赖传统「大量人类演示监督」训练的同类但也暴露纯 RL 粗训练的副产品可读性、语言混杂、重复啰嗦等问题——这为DeepSeek-R1 的多阶段配方提供了动机。6. DeepSeek-R1冷启动 多阶段 SFT / RL 的总成路线DeepSeek-R1在 R1-Zero 的启示上采用更贴近产品化的流水线阶段命名与顺序以论文为准此处只保留结构级理解冷启动Cold Start使用小规模、高质量的长推理数据或与推理格式兼容的数据先做监督微调让模型学会「用人类可读的方式」展开思考缓解纯 RL 初期的语言与格式失控。本质仍是SFT见§4.1.2与§4.4中「行为克隆」对照。面向推理的 RL 阶段在可验证任务上继续用规则奖励正确性、格式约束等做策略优化论文使用GRPO作为关键算法组件——原理与直观见§4.1、§4.3。拒绝采样与额外 SFT用当前策略生成大量候选按规则/质量筛选高质量轨迹再监督微调以巩固稳定行为并兼顾非推理任务通用指令、多轮对话等避免模型「只会做题不会聊天」。拒绝采样得到的优质长轨迹也是蒸馏/复用数据的常见来源§4.4.3。全场景 RL / 对齐若论文所述阶段存在在更广泛提示上再做 RL 或偏好优化使推理风格与人类偏好有用、无害、可读更一致。实际例子可以把它想成「先教写字冷启动 SFT→ 再靠考试奖惩塑形RL GRPO→ 把好作文挑出来临摹拒绝采样 SFT→ 再做综合素质训练全场景对齐」。7. 训练管线与 §4 概念索引速查流水线环节你在 §4 里对应读哪里为什么在数学题上做 RL 可行§4.1智能体 / 奖励 / 稀疏奖励R1-Zero 的「涌现」指什么、不指什么§4.2不用 Critic 怎么算优势§4.3 GRPO小模型怎么学推理软标签还是抄长文§4.4 蒸馏论文中蒸馏小模型与拒绝采样 SFT并列呈现时可统一理解为把「高奖励的生成行为」固化进权重——前者固化到小模型后者固化到同一大模型的下一轮训练。8. 小结与相关文档DeepSeek-R1的核心是用 RL配合冷启动与多阶段 SFT激励推理行为在可验证任务上取得强结果并可将轨迹蒸馏到小模型。架构层面与 Transformer 16. DeepSeek-V3 架构解析 同族Decoder-onlyMLA MoE 等一致差异主要在训练与输出形态。「更深」主要是更长显式推理链 测试时更多计算 RL 对正确性的直接压力而非「模型结构上多读出隐藏世界知识」。概念层面若你希望从「听说过」进到「能给别人讲清楚」请以§4为主干§4.1RL、§4.2涌现、§4.3GRPO、§4.4蒸馏§7提供与训练管线的速查对应。相关文档Transformer 10. Decoder Only Transformer 架构以及每一步骤的详细计算Transformer 12. LLaMA 架构介绍以及与 Transformer 架构对比Transformer 13. DeepSeek LLM 架构解析Transformer 14. DeepSeekMoE 架构解析Transformer 15. DeepSeek-V2 架构解析Transformer 16. DeepSeek-V3 架构解析论文DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv:2501.12948代码与发布入口以官方仓库为准https://github.com/deepseek-ai/DeepSeek-R1

更多文章