论文精读：DeepSeek-软件玩家

admin管理员组
文章数量:1446760

论文精读：DeepSeek

前言

你好，我是喵喵侠。众所周知，在AI人工智能领域，大模型推理能力的突破，一直是技术革新的核心挑战，而DeepSeek-R1 的横空出世，凭借其基于纯强化学习的多阶段训练框架，获得了与OpenAI o1系列模型的性能比肩的能力。自此以后，各大AI厂商都推出了自家的推理模型，这场由算法架构创新引发的推理革命，或将重新定义人类与智能体协同进化的未来图景。

也许你和我一样好奇，DeepSeek-R1 是如何获得如此强大的推理能力。为此我找了一篇DeepSeek官方出品的论文，让我们一探究竟吧！

背景介绍

论文的原英文标题是《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》，在线阅读链接如下：

[2501.12948] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

在论文的开头，介绍了DeepSeek官方的第一代推理模型——DeepSeek-R1-Zero。它是通过大规模强化学学习（RL）训练而成，而且没有采用监督微调（SFT）作为初始步骤，却展示出了卓越的推理能力。然而这也是有缺陷的，实际测试发现，它存在可读性差、语言混合的挑战。具体表现为，你在对话的时候，它的回复可能不容易被人类理解，用中文提问回复得到的却是英文的情况。为了解决这样的问题，并进一步提高推理性能，官方推出了DeepSeek-R1 模型，它在推理任务上，实现了与OpenAI-o1-1217 比肩的性能。官方为了推进研究，开源了 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 Qwen 和 Llama 从 DeepSeek-R1 提炼出的六个密集模型（1.5B、7B、8B、14B、32B、70B）。

核心要点

传统方法 vs RL

传统方法需要依赖大量监督数据来提升模型性能，而DeepSeek官方证明就仅用RL（甚至不需要冷启动数据）也能够显著提高推理能力。与此同时，加入少量高质量冷启动数据，可以进一步加速收敛和提升性能。最后官方把这种推理能力，通过蒸馏技术传递给了小模型。

如果把大模型训练比喻成提升学生考试成绩，传统方式就像是要给他提供大量的辅导材料和作业，以量变换质变；而通过游戏奖励机制（RL），可以激励学生自主思考，往往能获得意想不到的效果。在此基础上，仅需要一点点的的“点拨”（冷启动数据），学习的效果更加明显。最后还可以把这种“智慧”浓缩后，分享给其他的小朋友（小模型）。

DeepSeek-R1-Zero：纯RL训练

DeepSeek-R1-Zero采用的是纯RL训练，训练过程有以下几个要点：

强化学习算法（GRPO）：采用Group Relative Policy Optimization，省去传统RL中需要巨大计算资源的“评判者”，而是通过组内比较来估计奖励。
奖励建模：设置两种奖励：①准确性奖励（例如数学题要求答案格式规范）；②格式奖励（要求把推理过程写在指定标记中）。
模板训练：设计简单模板，要求模型先输出推理过程再给出最终答案，保证结构统一。
性能与自我进化：随着训练进行，模型不仅准确率大幅提升，还自发出现反思、探索不同解题策略等“意外智慧”。

简单理解就是无师自通，通过组内比分的方式，可以快速判断出谁的表现更好。如果正确符合要求就得分。随着训练时间的增加，模型就会想一个小学生一样逐渐学会反思，不断的检查自己的步骤，从而变得越来越聪明。

DeepSeek-R1：带冷启动的RL训练

前面有说到，加入少量的冷启动，训练效果会更好。在DeepSeek-R1中，首先通过少量精心构造的长链式思考（CoT）数据对基础模型进行初步微调，使其在训练初期更加稳定和易读；然后继续用RL强化推理能力；接着，通过拒绝采样收集高质量的监督数据，再次进行微调；最后，再进行一次RL训练，使模型兼顾各种场景下的表现。

这个冷启动的阶段，就好比给孩子先上个“预备课”，让他知道怎样思考比较清晰，然后再进入激烈的“考试”中练习。最后，还让他参加全面辅导，既能独立思考也能应对各种考试场景，变得更全面。

蒸馏技术：让小模型也能变得聪明

官方用DeepSeek-R1作为“教师模型”，通过生成大约80万条推理训练样本，对Qwen和Llama等小模型进行监督微调。结果表明，小模型经过蒸馏后在各项推理任务上表现大幅提升，有的甚至超越了部分大模型。

如果说大模型是一个资深教授，那么小模型就像是他的学生。教授通过讲课的方式，传授知识给学生，学生习的这些知识后，即便没有教授的高水平，也能胜任助教的工作，甚至在某些特定的领域可以独当一面。

实验结果

论文在多个推理、数学、编程和知识问答的基准上，对DeepSeek-R1及其蒸馏版本进行了详细的评测。结果显示如下：

在数学任务（如AIME、MATH-500）上，DeepSeek-R1表现与顶级模型相当；
在编程任务上（例如Codeforces竞赛），其表现也十分抢眼；
在开放问答和写作任务中，模型能生成清晰、连贯的答案；
蒸馏后的小模型在多个指标上均有明显提升。

蒸馏 vs 强化学习

在论文，可以看到中单纯依靠大规模RL训练小模型与通过蒸馏大模型知识训练小模型的效果对比。结果表明，直接蒸馏得到的小模型效果更佳，且更加经济高效；而仅靠RL训练小模型往往需要更多计算资源，且效果不如预期。

由此看来，获得了大模型“智慧”的小模型，比完全从头开始摸索要快许多，这就好像有个前辈把自己的宝贵经验告诉了后辈，后辈就能少走很多弯路。

不成功的尝试

论文还讨论了其他尝试，例如使用过程奖励模型（PRM）和蒙特卡洛树搜索（MCTS）来提升推理过程，但均因设计难度大、易出现“奖励漏洞”等问题，效果不如预期。

由此看来，其他的方式理论上可行，但并不完善，缺少很多实践。目前简单有效的方式还是奖励机制。

结语

论文总结了通过纯RL训练与冷启动数据结合的DeepSeek-R1在推理任务上的成功，并证明了蒸馏技术在传递推理能力上的有效性，并且指出了接下来工作聚焦的方向。官方表示，未来会提升模型在多语言和复杂对话中的表现，改进长链式思考在软件工程等领域的应用，进一步优化训练流程，减少对大规模计算资源的依赖。

总得来说，这种通过奖励机制让模型“自学成才”，并把大模型的智慧传递给更小的模型，给大模型的训练提供了一种全新的方向。虽然目前还存在一些问题（多语言混杂和部分场景表现不佳），但未来改进方向明确，就是不断的优化教学方法，让每个学生都发挥最大潜力。

希望通过本文的论文精读，让你能对DeepSeek-R1的训练方法有个大致的了解。后续我会更新更多关于DeepSeek相关的内容，敬请期待。

本文标签：论文精读DeepSeek

版权声明：本文标题：论文精读：DeepSeek 内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.betaflare.com/biancheng/1748327440a2846700.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

编程频道|软件玩家 - 软件改变生活！

论文精读：DeepSeek

论文精读：DeepSeek

前言

背景介绍

核心要点

传统方法 vs RL

DeepSeek-R1-Zero：纯RL训练

DeepSeek-R1：带冷启动的RL训练

蒸馏技术：让小模型也能变得聪明

实验结果

蒸馏 vs 强化学习

不成功的尝试

结语

更多相关文章

论文精读：DeepSeek

发表评论

推荐文章

【AI 进阶笔记】SSD 改进：DSSD

LangGraph 0.3.20 震撼发布！128位哈希、更强容错、性能飙升！

常考计算机操作系统面试习题（二）（上）

六家“深度搜索”横评，谁更懂用户要什么？

如何解决跨团队协作的交付摩擦？——构建高效协作体系的实践框架

热门文章

C++类间的 “接力棒“ 传递：继承（上）

C# 定时器详解

全民AI时代，大模型客户端和服务端的实时通信到底用什么协议？

Agent Toolkit大揭秘：Python实现智能体调用外部API的5种方案

MLOps赋能AI全生命周期：从数据到模型的工业化革命，助力企业高效迭代与落地

hn：服务器网络延迟对在线游戏有影响吗？

Harvey Agents：AI代理如何重塑专业法律工作的未来

微信基于 StarRocks 的实时因果推断实践

LowRA框架实现每参数低于2 Bits LoRA微调，内存降50%，释放受限环境潜力!

使用DeepSeek自动从Excel生成柱状图

最新文章

LLM学习笔记：如何理解LLM中的Transformer架构

o3 deep research: 智能体的应用和演进

从开发者视角洞见未来，找到自己的破局之道：Deepseek和Manus如何助力破局？

嵌入式Linux：阻塞式IO与非阻塞式IO

STM32如何精准控制步进电机？

How to vary WooCommerce product prices based on order dates

For a menu custom link (without a link) a &quot;#&quot; is appended. Can this just be blank, i.e. NO link?

multisite - Hook into &#39;admin_url&#39; but only on Mysites admin bar menu

Global login to password protected pages

having a page in multi sub-menu and match current-menu-item

ThinkPad 黑侠 E570 GTX 20H5A019CD 参数报价

联想扬天B575el-ETW H参数报价

联想扬天B575el-ETW E2-2000参数报价

索尼VGN-CR322HP参数报价

清华同方S30i-45 黑参数报价

For a menu custom link (without a link) a "#" is appended. Can this just be blank, i.e. NO link?

multisite - Hook into 'admin_url' but only on Mysites admin bar menu