admin管理员组文章数量:1444917
DeepSeek 1.5B蒸馏小模型单项击败OpenAI o1
加州大学伯克利分校的最新研究[1]表明,仅 1.5B 参数的小模型竟然在 AIME(美国数学竞赛) 上击败了 OpenAI 的 o1-preview!他们对 Deepseek-R1-Distilled-Qwen-1.5B 进行了强化学习(RL)训练,在 4 万道数学题 上优化了一个小模型 DeepScaleR。 整个训练仅消耗 3,800 小时 A100 GPU(约 4,500 美元),最终在 AIME 任务上超越 o1-preview! 你可能会问:o1-preview 是通用大模型,而 Qwen-1.5B 只是专门针对数学微调的,这样比较公平吗?但这正是关键!这项研究证明了小模型在垂直领域的巨大潜力——你不需要 DeepSeek 680B 这样的大模型,只需要一个高质量数据集 + 经济实惠的小模型,就能打造强大的专用 AI。
上图展示了 DeepScaleR 在 AIME 2024、Math 500 和 AMC 2023 任务上的表现,可以明显看到它在数学推理上的强悍能力。
那么如何训练一个小模型击败 OpenAI?
1. 数据集构建
研究人员整合了多个数学竞赛的数据,共计 40000 道高质量数学题,包括
- AIME(1984-2023)和 AMC(2023 年前)
- Omni-MATH 和 Still 等数据集,涵盖多个国家级和国际数学竞赛。
数据处理和优化流程:
- ✅ 提取答案:用
gemini-1.5-pro-002
解析AoPS(Art of Problem Solving)
官方答案。 - ✅ 去重检查:利用
sentence-transformers/all-MiniLM-L6-v2
进行 RAG 处理,避免数据泄漏。 - ✅ 过滤不可评分题目:去除无法用
sympy
自动评估的问题,以提高训练效率。
2. 强化学习奖励机制
与 DeepSeek-R1 的采用的方法一致,研究人员采用结果奖励模型(Outcome Reward Model, ORM),而非过程奖励模型(Process Reward Model, PRM),以避免奖励欺骗(reward hacking)。
- 1 分:通过 LaTeX/Sympy 检测的正确答案
- 0 分:答案错误或格式不符(例如缺少
<think>
标签)
3. 关键研究发现
- 小模型也能从 RL 训练中获益!
- 传统观点认为 RL 只适用于大模型,但结合高质量 SFT 蒸馏,小模型同样可以通过 RL 提升推理能力。
- 研究表明,RL 训练能将 AIME 任务的准确率从 28.9% 提升到 43.1%。
- 单独的 SFT 或 RL 都不足,二者结合才是最佳方案
- 仅靠 RL,Qwen-32B 在 AIME 任务上的表现只有 47%,而单独蒸馏就能达到 72.6%。
- 高质量 SFT + RL 扩展训练,才能真正释放 LLM 的推理能力。
- 迭代式扩展上下文窗口,更高效
- 直接在 16K 上下文上训练 RL 无明显提升,逐步从 8K → 16K → 24K 更有效。
- 这种方法先优化短上下文推理,再扩展到长上下文,让模型更高效地学习长程推理能力。
本文标签: DeepSeek 15B蒸馏小模型单项击败OpenAI o1
版权声明:本文标题:DeepSeek 1.5B蒸馏小模型单项击败OpenAI o1 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.betaflare.com/biancheng/1748220206a2828258.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论