admin管理员组

文章数量:1446760

论文精读:DeepSeek

前言

你好,我是喵喵侠。众所周知,在AI人工智能领域,大模型推理能力的突破,一直是技术革新的核心挑战,而DeepSeek-R1 的横空出世,凭借其基于纯强化学习的多阶段训练框架,获得了与OpenAI o1系列模型的性能比肩的能力。自此以后,各大AI厂商都推出了自家的推理模型,这场由算法架构创新引发的推理革命,或将重新定义人类与智能体协同进化的未来图景。

也许你和我一样好奇,DeepSeek-R1 是如何获得如此强大的推理能力。为此我找了一篇DeepSeek官方出品的论文,让我们一探究竟吧!

背景介绍

论文的原英文标题是《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》,在线阅读链接如下:

[2501.12948] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

在论文的开头,介绍了DeepSeek官方的第一代推理模型——DeepSeek-R1-Zero。它是通过大规模强化学学习(RL)训练而成,而且没有采用监督微调(SFT)作为初始步骤,却展示出了卓越的推理能力。然而这也是有缺陷的,实际测试发现,它存在可读性差、语言混合的挑战。具体表现为,你在对话的时候,它的回复可能不容易被人类理解,用中文提问回复得到的却是英文的情况。为了解决这样的问题,并进一步提高推理性能,官方推出了DeepSeek-R1 模型,它在推理任务上,实现了与OpenAI-o1-1217 比肩的性能。官方为了推进研究,开源了 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 Qwen 和 Llama 从 DeepSeek-R1 提炼出的六个密集模型(1.5B、7B、8B、14B、32B、70B)。

核心要点

传统方法 vs RL

传统方法需要依赖大量监督数据来提升模型性能,而DeepSeek官方证明就仅用RL(甚至不需要冷启动数据)也能够显著提高推理能力。与此同时,加入少量高质量冷启动数据,可以进一步加速收敛和提升性能。最后官方把这种推理能力,通过蒸馏技术传递给了小模型。

如果把大模型训练比喻成提升学生考试成绩,传统方式就像是要给他提供大量的辅导材料和作业,以量变换质变;而通过游戏奖励机制(RL),可以激励学生自主思考,往往能获得意想不到的效果。在此基础上,仅需要一点点的的“点拨”(冷启动数据),学习的效果更加明显。最后还可以把这种“智慧”浓缩后,分享给其他的小朋友(小模型)。

DeepSeek-R1-Zero:纯RL训练

DeepSeek-R1-Zero采用的是纯RL训练,训练过程有以下几个要点:

  • 强化学习算法(GRPO):采用Group Relative Policy Optimization,省去传统RL中需要巨大计算资源的“评判者”,而是通过组内比较来估计奖励。
  • 奖励建模:设置两种奖励:①准确性奖励(例如数学题要求答案格式规范);②格式奖励(要求把推理过程写在指定标记中)。
  • 模板训练:设计简单模板,要求模型先输出推理过程再给出最终答案,保证结构统一。
  • 性能与自我进化:随着训练进行,模型不仅准确率大幅提升,还自发出现反思、探索不同解题策略等“意外智慧”。

简单理解就是无师自通,通过组内比分的方式,可以快速判断出谁的表现更好。如果正确符合要求就得分。随着训练时间的增加,模型就会想一个小学生一样逐渐学会反思,不断的检查自己的步骤,从而变得越来越聪明。

DeepSeek-R1:带冷启动的RL训练

前面有说到,加入少量的冷启动,训练效果会更好。在DeepSeek-R1中,首先通过少量精心构造的长链式思考(CoT)数据对基础模型进行初步微调,使其在训练初期更加稳定和易读;然后继续用RL强化推理能力;接着,通过拒绝采样收集高质量的监督数据,再次进行微调;最后,再进行一次RL训练,使模型兼顾各种场景下的表现。

这个冷启动的阶段,就好比给孩子先上个“预备课”,让他知道怎样思考比较清晰,然后再进入激烈的“考试”中练习。最后,还让他参加全面辅导,既能独立思考也能应对各种考试场景,变得更全面。

蒸馏技术:让小模型也能变得聪明

官方用DeepSeek-R1作为“教师模型”,通过生成大约80万条推理训练样本,对Qwen和Llama等小模型进行监督微调。结果表明,小模型经过蒸馏后在各项推理任务上表现大幅提升,有的甚至超越了部分大模型。

如果说大模型是一个资深教授,那么小模型就像是他的学生。教授通过讲课的方式,传授知识给学生,学生习的这些知识后,即便没有教授的高水平,也能胜任助教的工作,甚至在某些特定的领域可以独当一面。

实验结果

论文在多个推理、数学、编程和知识问答的基准上,对DeepSeek-R1及其蒸馏版本进行了详细的评测。结果显示如下:

  • 在数学任务(如AIME、MATH-500)上,DeepSeek-R1表现与顶级模型相当;
  • 在编程任务上(例如Codeforces竞赛),其表现也十分抢眼;
  • 在开放问答和写作任务中,模型能生成清晰、连贯的答案;
  • 蒸馏后的小模型在多个指标上均有明显提升。

蒸馏 vs 强化学习

在论文,可以看到中单纯依靠大规模RL训练小模型与通过蒸馏大模型知识训练小模型的效果对比。结果表明,直接蒸馏得到的小模型效果更佳,且更加经济高效;而仅靠RL训练小模型往往需要更多计算资源,且效果不如预期。

由此看来,获得了大模型“智慧”的小模型,比完全从头开始摸索要快许多,这就好像有个前辈把自己的宝贵经验告诉了后辈,后辈就能少走很多弯路。

不成功的尝试

论文还讨论了其他尝试,例如使用过程奖励模型(PRM)和蒙特卡洛树搜索(MCTS)来提升推理过程,但均因设计难度大、易出现“奖励漏洞”等问题,效果不如预期。

由此看来,其他的方式理论上可行,但并不完善,缺少很多实践。目前简单有效的方式还是奖励机制。

结语

论文总结了通过纯RL训练与冷启动数据结合的DeepSeek-R1在推理任务上的成功,并证明了蒸馏技术在传递推理能力上的有效性,并且指出了接下来工作聚焦的方向。官方表示,未来会提升模型在多语言和复杂对话中的表现,改进长链式思考在软件工程等领域的应用,进一步优化训练流程,减少对大规模计算资源的依赖。

总得来说,这种通过奖励机制让模型“自学成才”,并把大模型的智慧传递给更小的模型,给大模型的训练提供了一种全新的方向。虽然目前还存在一些问题(多语言混杂和部分场景表现不佳),但未来改进方向明确,就是不断的优化教学方法,让每个学生都发挥最大潜力。

希望通过本文的论文精读,让你能对DeepSeek-R1的训练方法有个大致的了解。后续我会更新更多关于DeepSeek相关的内容,敬请期待。

本文标签: 论文精读DeepSeek