admin管理员组文章数量:1438725
实测OpenAI发布的o3和o4
在4月16日晚,OpenAI 发布了两款全新推理模型——o3 和 o4‑mini。o3 被定位为公司迄今最强大的推理系统,拥有前所未有的多模态理解和图像推理能力;而 o4‑mini 则是一款轻量化、高效、低成本的推理模型,专为数学、编码和视觉分析等任务优化设计。
那么o3、o4-mini和GPT-4.1到底有什么区别呢?这张图可以很好的总结下来:
- 推理 vs. 速度
o3 在推理能力上评分最高,但速度是最慢的,适合对思考深度要求极高且可接受较慢响应的场景。
o4‑mini / GPT‑4.1 都给了响应较快;其中 o4‑mini 价格最低,GPT‑4.1 智能能力更强。
- 价格梯度
o4‑mini ≪ GPT‑4.1 ≪ o3,输出 token 单价差距最大(4.4→8→40 美元)。
- 上下文窗口
GPT‑4.1 直接拉到 百万级(≈1.05 M),远超另两款 200k;如果要“整本书喂给模型”,优先使用GPT-4.1
输出长度 o 系列可到 100k token,GPT‑4.1 为 32 k
- 多模态支持
三者均支持 文本输入 / 输出;也支持图片的输入和输出。
目前o3和o4-mini两个模型相比以前我觉得最大的改变就是可以进行“网页搜索”和“图像输入分析”。
网页搜索功能 + 工具调用测试案例
1.地图路线图测试
比如测试o3帮我坐地铁,它能够在推理过程中,帮助我快速的找到正确的答案:
最后结论是比较容易找到最佳路线的:
2.常规内容对比搜索总结
比如你自己想做最近多个大模型的能力对比图,那么就可以直接问题具体的内容:
为我提供 o3 和 o4-mini 两个模型在 benchmark 的分数,同时也对比一下gemini2.5的分数
它首先根据我的问题进行了网页搜索:
最后做出了几个模型在多个基础测试集上的对比图,全程都不需要我自己一个一个资料去查:
由于 o3 目前已经具备了工具调用能力,直接让它帮我生成一个雷达图:
它在生成的过程中,本质上就是调用了 python 工具生成雷达图,这样的问题对于大模型确实已经比较简单了:
这样的功能其实就类似于perplexity,相当于把这些网页搜索+总结的软件都给一件替代了
图片理解测试
1.简单的模型理解
对于图片的解析,它能够在推理过程中,逐渐放大对应的图片,然后更加精细化的进行总结,比如就拿上面的三个模型对比图来让它给我分析,可以发现在推理过程中能够读取图片信息:
它就像人看图片一样,先看全部,然后再看局部的图片信息,很符合人的注意力感官。
2.给一张图片找地点
首先简单的给出一张 图片,让它帮我们找一下具体的地点在哪里
然后它就开始思考,搜索了很多内容之后,他开始分析图片的局部特征,与搜索到的内容进行比对
最后再总结所有的信息给出结论:
在我看来,o3抹平了LLM和智能体的界限。它让语言模型不再只是单纯地处理文本,而是能像智能体一样感知环境、做出决策并执行任务。
看来什么 Agent 都是炒作,只要大模型的推理能力够强,Agent 的能力确实不值得一提。
再给它上升一点难度,给定一个暂时还没有的建筑,这个建筑正在建。
最后结论已经是基本接近了,确实图片找地点感觉有点强过头了
当然,其实很多多模态大模型都有根据图片识别位置的能力,GeoBench就是这样一个榜单
目前 o3 排名在第 7 名。可以看到第一名其实是谷歌的 Gemini 模型,这是因为谷歌本身就拥有大量的地图信息,很多人就猜测谷歌最新的 Gemini2.5 pro 就用到了位置和地图信息去大规模训练。
写在最后
从 o3 和 o4-mini 的发布可以看出,OpenAI 正在加速推动语言模型向智能体形态转变的进程。在过去,我们常说“大模型是大脑,Agent 是身体”,但现在 o3 本身已经具备了感知环境、调用工具、决策执行的能力,一体化模型正在成为主流。
未来的趋势或许就是——你无需再训练自己的 Agent,只需要选一个能看图、能联网、能思考的大模型,它就是你的万能助手。
接下来的问题,不再是“谁家模型大”,而是“谁家的模型更聪明、更省钱、能替我解决更多问题”。
本文标签: 实测OpenAI发布的o3和o4
版权声明:本文标题:实测OpenAI发布的o3和o4 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.betaflare.com/biancheng/1747590347a2721038.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论