DeepSeek 1.5B蒸馏小模型单项击败OpenAI o1

编程

更新时间：2025-05-261

admin管理员组
文章数量:1444917

DeepSeek 1.5B蒸馏小模型单项击败OpenAI o1

加州大学伯克利分校的最新研究[1]表明，仅 1.5B 参数的小模型竟然在 AIME（美国数学竞赛）上击败了 OpenAI 的 o1-preview！他们对 Deepseek-R1-Distilled-Qwen-1.5B 进行了强化学习（RL）训练，在 4 万道数学题上优化了一个小模型 DeepScaleR。整个训练仅消耗 3,800 小时 A100 GPU（约 4,500 美元），最终在 AIME 任务上超越 o1-preview！你可能会问：o1-preview 是通用大模型，而 Qwen-1.5B 只是专门针对数学微调的，这样比较公平吗？但这正是关键！这项研究证明了小模型在垂直领域的巨大潜力——你不需要 DeepSeek 680B 这样的大模型，只需要一个高质量数据集 + 经济实惠的小模型，就能打造强大的专用 AI。

上图展示了 DeepScaleR 在 AIME 2024、Math 500 和 AMC 2023 任务上的表现，可以明显看到它在数学推理上的强悍能力。

那么如何训练一个小模型击败 OpenAI？

1. 数据集构建

研究人员整合了多个数学竞赛的数据，共计 40000 道高质量数学题，包括

AIME（1984-2023）和 AMC（2023 年前）
Omni-MATH 和 Still 等数据集，涵盖多个国家级和国际数学竞赛。

数据处理和优化流程：

✅ 提取答案：用 gemini-1.5-pro-002解析AoPS（Art of Problem Solving）官方答案。
✅ 去重检查：利用sentence-transformers/all-MiniLM-L6-v2进行 RAG 处理，避免数据泄漏。
✅ 过滤不可评分题目：去除无法用sympy自动评估的问题，以提高训练效率。

2. 强化学习奖励机制

与 DeepSeek-R1 的采用的方法一致，研究人员采用结果奖励模型（Outcome Reward Model, ORM），而非过程奖励模型（Process Reward Model, PRM），以避免奖励欺骗（reward hacking）。

1 分：通过 LaTeX/Sympy 检测的正确答案
0 分：答案错误或格式不符（例如缺少<think>标签）

3. 关键研究发现

小模型也能从 RL 训练中获益！
- 传统观点认为 RL 只适用于大模型，但结合高质量 SFT 蒸馏，小模型同样可以通过 RL 提升推理能力。
- 研究表明，RL 训练能将 AIME 任务的准确率从 28.9% 提升到 43.1%。
单独的 SFT 或 RL 都不足，二者结合才是最佳方案
- 仅靠 RL，Qwen-32B 在 AIME 任务上的表现只有 47%，而单独蒸馏就能达到 72.6%。
- 高质量 SFT + RL 扩展训练，才能真正释放 LLM 的推理能力。
迭代式扩展上下文窗口，更高效
- 直接在 16K 上下文上训练 RL 无明显提升，逐步从 8K → 16K → 24K 更有效。
- 这种方法先优化短上下文推理，再扩展到长上下文，让模型更高效地学习长程推理能力。
  本文标签： DeepSeek 15B蒸馏小模型单项击败OpenAI o1
  版权声明：本文标题：DeepSeek 1.5B蒸馏小模型单项击败OpenAI o1 内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.betaflare.com/biancheng/1748220206a2828258.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

编程频道|软件玩家 - 软件改变生活！

DeepSeek 1.5B蒸馏小模型单项击败OpenAI o1

DeepSeek 1.5B蒸馏小模型单项击败OpenAI o1

1. 数据集构建

2. 强化学习奖励机制

3. 关键研究发现

更多相关文章

DeepSeek 1.5B蒸馏小模型单项击败OpenAI o1

发表评论

推荐文章

享元模式Flyweight Pattern

当AI开始质疑图灵测试：智能本质的重新定义

为什么 Apache Doris 是比 Elasticsearch 更好的实时分析替代方案？

基于Docker的OpenObserve快速搭建实现全链路可观测性远程管理

【视频】文本挖掘专题：Python、R用LSTM情感语义分析实例合集

热门文章

聚焦卷积神经网络（CNN）、人工神经网络（ANN）与图像分析

在 Java 中使用互斥对象

NRZ vs. PAM4：高速光模块中的信号调制技术之争‌

【Linux】进程信号的发送和保存

PCIE时钟解说

video 标签设置视频高度100%，填充占满父元素高度。

探索多模态AI的未来：跨越视觉、语言与音频的边界

【C++】Chapter01 类与对象

[oeasy]python078

石油开发企业部署人员定位系统的必要性及方案解析

最新文章

26K star！LLM多智能体AutoGen教程2 顺序对话：登机服务

2025年项目管理软件革命：7大工具重新定义团队协作

26k star！LLM多智能体AutoGen教程3：我的外包弟弟写代码

26K Star!多智能体AutoGen教程4 嵌套对话模式：王玄策一人灭一国是怎么来的？

26K Star!LLM多智能体AutoGen教程5：函数调用之避免捏造参数

javascript - Type &#39;undefined&#39; is not assignable to type &#39;menuItemProps[]&#39; - Stack Overflow

javascript - VS 2015 Angular 2 import modules cannot be resolved - Stack Overflow

javascript - Get the JSON objects that are not present in another array - Stack Overflow

javascript - How to dismiss a phonegap notification programmatically - Stack Overflow

c - Solaris 10 make Error code 1 Fatal Error when trying to build python 2.7.16 - Stack Overflow

外星人Alienware M15 ALW15M-D3729S参数报价

海尔S15 Pro-M5i716GB1TB参数报价

海尔S15 Pro-M5i58GB512GB参数报价

技械骑士HZ60 13代酷睿i716GB512GB4G独显参数报价

ThinkPad L13 11代酷睿 i7 1165G716GB512GB集显 参数报价

javascript - Type 'undefined' is not assignable to type 'menuItemProps[]' - Stack Overflow

ThinkPad L13 11代酷睿 i7 1165G716GB512GB集显参数报价