admin管理员组文章数量:1437106
Operator 背后的技术:Computer
Operator 背后的核心是 OpenAI 新研发的 Computer-Using Agent (CUA) 模型。CUA 结合了 GPT-4o 的视觉理解能力以及强化学习训练得到的高级推理能力,能够自主与图形用户界面(GUI)进行交互。
CUA 的工作流程可以概括为三大步骤:
1. 感知(Perception)
CUA 会实时截取当前屏幕快照,并将其作为上下文输入模型,从而理解当前任务所处的状态。
2. 推理(Reasoning)
CUA 通过链式思维(Chain-of-Thought, CoT)逐步规划操作步骤,并根据历史操作和视觉变化进行实时调整与自我修正。
3. 操作(Action)
CUA 控制鼠标和键盘,进行点击、滚动、输入等操作直至任务完成。如遇敏感操作(如登录、验证码处理等),它会主动寻求用户确认。
例如在一个演示中,用户命令 Operator:
“订一张今晚7点在 Beretta 的双人位。”
Operator 随即打开浏览器,搜索 Beretta 并识别出网页错误地点(默认显示弗吉尼亚州),随后自动修正为旧金山地址,并完成预订流程。这种灵活纠错能力,正是 CUA 的核心优势。
性能表现:大幅超越以往方法
CUA 在多个基准测试中的表现显著超越传统方法:
- Computer Use 任务成功率:38.1%(领先于此前最佳 22.0%)
- Browser Use 任务成功率:58.1%(显著高于之前的 36.2%)
值得注意的是,OpenAI 在测试中不仅仅评估了网页操作,也尝试了完整操作系统环境下的模拟任务。尽管目前操作系统上的成功率只有 38.1%,还未达到可用阶段,但这表明未来 CUA 有望成为全能型智能体。
同时,任务执行步数对成功率也有明显影响。从下图可以看出,当执行步骤控制在 10~100 步时,成功率从 10% 提升至 38%。但与人类 72.4% 的成功率相比,CUA 仍有很大的进步空间。
为了进一步优化体验,未来可能会对常见任务进行 RL 微调,从而在减少执行步数的同时提升成功率。
Agent 时代真的来了?
OpenAI 早在内部将人工智能的发展划分为五个等级:
- 聊天机器人(Chatbots):当前主流大模型所处阶段。
- 推理者(Reasoners):具备较强逻辑与推理能力。
- 智能体(Agents):具备感知-推理-行动闭环,能自主执行任务。
- 创新者(Innovators):能够独立产生新知识和想法。
- 组织者(Organizations):具备协同能力,提升复杂系统效率。
Operator 的发布,意味着 OpenAI 已正式跨入第三级——Agent 智能体阶段。
接下来几周/几个月,OpenAI 将逐步扩展智能体的操作空间,从网页浏览延伸到更多任务场景,真正开启“自主软件操作”的新时代。
写在最后:Agent 黄金十年
有不少人认为,2025 年将成为“智能体元年”。从 OpenAI 到 Google、Anthropic,再到国内各大厂商,都在押注 Agent 技术。
个人认为,未来十年将是智能体快速发展的黄金时代。但要真正让 Agent 成为工作、生活中的得力助手,仍需要大量工程实践与系统优化。
只有当智能体脱离“演示体验”,真正做到稳定、可靠、高效时,我们才能真正迎来一个由 AI 助手协同完成任务的世界。
也许那时,我们才真的“把事情变得有趣”——而不只是“让人类更省事”。
本文标签: Operator 背后的技术Computer
版权声明:本文标题:Operator 背后的技术:Computer 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.betaflare.com/biancheng/1747418718a2695579.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论