admin管理员组

文章数量:1445101

OpenAI新发布的o3

OpenAI 发布了最新的推理模型——o3-mini,它专为科学、数学、编程等领域优化,提供更快的响应、更高的准确度和更低的成本。与前代 o1-mini 相比,o3-mini 在推理能力上有了显著提升,尤其在复杂问题解决上,测试者偏爱 o3-mini 的答案达 56%,错误率减少了 39%。从今天起,ChatGPT Plus、TeamPro用户可使用 o3-mini,免费用户也能体验其部分功能。

与同为推理模型DeepSeek-R1[1]相比,OpenAI o3-mini[2]到底比 R1 好多少呢?本文先大致过一下 o3-mini 的亮点,然后我们把双方在各个 benchmark 上的数据提取出来做个图直观比较一下。此外,我们还会比较一下 o3-mini 的价格。

1. 核心亮点:

1.STEM 优化:数学、编程、科学等领域表现优异,尤其在高推理努力模式下超越 o1-mini。

2.开发者功能:支持函数调用、结构化输出、开发者消息等功能,满足生产环境需求。

3.快速响应:比 o1-mini 快 24%,每个请求响应时间缩短至 7.7 秒。

4.安全性提升:通过深度对齐技术确保安全、可靠的输出。

5.低成本高效益:推理能力与成本优化并行,极大降低了 AI 使用门槛。

2. 比比看

Open AI 为了凸显逼格,其官方发布博客[3]中只给出与自己家的模型比较。因此本文是从 DeepSeek R1 的论文和 OpenAI 官方博客的数据中提取出来做的表格。

OpenAI 官方把 o3-mini 在版单中的对比,拆了 low,medium 和 high 三个版本,表示推理强度。由于 DeepSeek 采用的是 Math-500,而 OpenAI 是 Math 数据集,因此这里去掉了该项比较。

更为直观的是图表,其中去掉了 Codeforces,因为数值较大,无法直观显示。但是 Codeforces 上的比较,o3-mini 高推理强度也没有领先多少。

从图表上来看,共 4 项比较,O3-mini(high)总体上领先,领先的优势很小。

3. 价格

4.总结

随着 DeepSeek R1 在美国引发 DeepSeek Panic,而最先感受到威胁的就是 OpenAI,这从其发布的新模型 o3-mini 的定价上体现的尤其明显。从 o1 和 R1 相差 30 倍的价格,到 o3-mini 最终定价在 DeepSeek R1 价格的 2 倍,可见 DeepSeek R1 的威力。但 ChatGPT 的免费用户依然只能受限体验 o3-mini,而 DeepSeek 的深度思考目前是所有用户都能使用。从博主个人使用 R1 的感受来说,我想说 R1 的深度思考总能给我打开思路。推荐大家多多用来思考问题~

参考资料

[1]

DeepSeek-R1: .pdf

[2]

OpenAI o3-mini: /

[3]

官方发布博客: /

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-02-01,如有侵权请联系 cloudcommunity@tencent 删除数据优化DeepSeekopenai博客

本文标签: OpenAI新发布的o3