admin管理员组

文章数量:1444917

DeepSeek 1.5B蒸馏小模型单项击败OpenAI o1

加州大学伯克利分校的最新研究[1]表明,仅 1.5B 参数的小模型竟然在 AIME(美国数学竞赛) 上击败了 OpenAI 的 o1-preview!他们对 Deepseek-R1-Distilled-Qwen-1.5B 进行了强化学习(RL)训练,在 4 万道数学题 上优化了一个小模型 DeepScaleR。 整个训练仅消耗 3,800 小时 A100 GPU(约 4,500 美元),最终在 AIME 任务上超越 o1-preview! 你可能会问:o1-preview 是通用大模型,而 Qwen-1.5B 只是专门针对数学微调的,这样比较公平吗?但这正是关键!这项研究证明了小模型在垂直领域的巨大潜力——你不需要 DeepSeek 680B 这样的大模型,只需要一个高质量数据集 + 经济实惠的小模型,就能打造强大的专用 AI

上图展示了 DeepScaleR 在 AIME 2024、Math 500 和 AMC 2023 任务上的表现,可以明显看到它在数学推理上的强悍能力。


那么如何训练一个小模型击败 OpenAI?

1. 数据集构建

研究人员整合了多个数学竞赛的数据,共计 40000 道高质量数学题,包括

  • AIME(1984-2023)和 AMC(2023 年前)
  • Omni-MATH 和 Still 等数据集,涵盖多个国家级和国际数学竞赛。

数据处理和优化流程:

  • ✅ 提取答案:用 gemini-1.5-pro-002解析AoPS(Art of Problem Solving)官方答案。
  • ✅ 去重检查:利用sentence-transformers/all-MiniLM-L6-v2进行 RAG 处理,避免数据泄漏。
  • ✅ 过滤不可评分题目:去除无法用sympy自动评估的问题,以提高训练效率。

2. 强化学习奖励机制

与 DeepSeek-R1 的采用的方法一致,研究人员采用结果奖励模型(Outcome Reward Model, ORM),而非过程奖励模型(Process Reward Model, PRM),以避免奖励欺骗(reward hacking)

  • 1 分:通过 LaTeX/Sympy 检测的正确答案
  • 0 分:答案错误或格式不符(例如缺少<think>标签)

3. 关键研究发现

  1. 小模型也能从 RL 训练中获益!
    • 传统观点认为 RL 只适用于大模型,但结合高质量 SFT 蒸馏,小模型同样可以通过 RL 提升推理能力。
    • 研究表明,RL 训练能将 AIME 任务的准确率从 28.9% 提升到 43.1%
  2. 单独的 SFT 或 RL 都不足,二者结合才是最佳方案
    • 仅靠 RL,Qwen-32B 在 AIME 任务上的表现只有 47%,而单独蒸馏就能达到 72.6%
    • 高质量 SFT + RL 扩展训练,才能真正释放 LLM 的推理能力。
  3. 迭代式扩展上下文窗口,更高效
    • 直接在 16K 上下文上训练 RL 无明显提升,逐步从 8K → 16K → 24K 更有效。
    • 这种方法先优化短上下文推理,再扩展到长上下文,让模型更高效地学习长程推理能力。

      本文标签: DeepSeek 15B蒸馏小模型单项击败OpenAI o1