OpenAI 发布多模态推理模型

1- 模型简介

OpenAI 正式发布其最新的两款多模态推理模型: o3o4-mini

这两款模型不仅继承了 o 系列标志性的 " 先思考、后回答 " 训练范式,更是首次将深度推理能力与调用 ChatGPT 全套内置工具(包括网页搜索、Python 数据分析、文件解析、图像生成与处理等)的能力无缝整合在同一个推理框架内。

这意味着模型不仅知道如何使用工具,更能自主判断何时、该用何种工具来解决复杂问题,为用户带来真正的 " 智能代理 " 体验,标志着 ChatGPT 向具备自主执行能力的智能助手迈出了关键一步。

图片

从以上图可以看出,o3 和 o4-mini 支持的最大上下文都是 20 万 tokens,远低于 GPT-4.1 的 100 万 tokens( OpenAI 发布 GPT-4.1 系列,助力开发 )。

目前, o3o4-minio4-mini-high 已正式推送 ChatGPT(Plus、Pro 和 Team 可用),针对专业级用户的 o3-pro 也会在几周内发布。Enterprise 和 Edu 用户预计在一周内获得访问权限。免费用户也可通过 ChatGPT 界面中的 “Think” 功能来体验 o4-mini 的能力。

开发者则可以通过 Chat Completions API 和 Responses API 接入新模型,未来版本还将逐步开放 API 对网络搜索、文件检索、代码解释器等内置工具的调用支持。

OpenAI 重回 LiveBench [2] 榜首(一款专为 LLM 设计的基准测试集,在设计时充分考虑了测试集污染和客观评估)。

图片

2- o3:性能标杆,原生视觉推理

作为 o 系列当前的旗舰, o3 在性能上实现了重大突破,尤其在编程、数学、科学推理及视觉感知领域表现卓越。它刷新了包括 Codeforces、SWE-bench(无需专用脚手架)和 MMMU 在内的多项业界基准测试记录。更引人注目的是,o3 具备 " 以图思考 " 的原生能力,能够深度理解和分析图像、图表及复杂示意图。它甚至可以在内部推理链中自主执行图片裁剪、旋转、放大等操作,有效从低质量或细节模糊的视觉信息中提取关键数据。

外部专家评测显示,相较于前代 o1,o3 在处理真实世界复杂任务时的重大错误率降低了约 20%,特别适用于编程开发、商业咨询、科研探索(如生物、数学、工程)等需要深度创造性和批判性思维的场景。

图片

目前," 图像推理 " 仍存在一些问题:

  • 推理链过长:有时会产生冗余的工具调用或图像处理步骤,导致思维链过于臃肿;
  • 感知错误:即便工具调用正确推进了思考过程,视觉误读仍可能带来错误结论;
  • 可靠性问题:对同一问题的多次尝试中,模型可能选择不同的视觉推理路径,其中一些路径可能导致错误结果。

3- o4-mini:高效经济,兼顾多能

同时发布的 o4-mini 则定位为 " 快、轻、廉 ",专注于对成本敏感且需要高并发处理的场景。尽管体量更小、资源占用更低,但 o4-mini 在数学(在 2024 和 2025 年 AIME 数学竞赛中取得领先成绩)、编程和视觉任务上仍表现出色,并且相较于前代 o3-mini,在非 STEM 任务和数据科学领域也有显著提升。凭借其成本优势和快速推理能力,o4-mini 拥有比 o3 更高的调用配额,在相同成本与延迟下也展现出更优的 " 成本 - 性能前沿 ",使其成为大规模部署应用的理想方案。

图片

4- 规模化强化学习

本轮模型升级的核心驱动力是规模化的强化学习(RL)。OpenAI 将 RL 训练的计算规模提升了一个数量级,再次验证了 " 更多计算带来更强推理能力 " 的趋势。

重要的是,这种强化学习不仅训练模型掌握工具的使用方法,更赋予了它们在开放式对话和多步骤任务中,根据目标自主、灵活地选择并调用最优工具组合的决策能力。即使在与上一代模型相同的延迟和成本下,新模型也能提供更高的推理质量;若允许更长的 " 思考 " 时间,性能还会进一步提升。

5- 安全强化

伴随能力提升,OpenAI 也同步升级了安全机制。团队重建了安全训练数据集,加入了针对生物风险、恶意代码生成和越狱企图的拒绝示例。

此外,还开发了一种基于可解释安全规范的 LLM 监控模型,特别是在生物风险相关的红队测试中,实现了约 99% 的有效拦截率。根据 OpenAI 更新的 Preparedness Framework 评估,o3 和 o4-mini 在生物与化学风险、网络安全风险以及 AI 自我提升风险这三大关键维度上均处于 " 中等 " 以下的受控安全范围内,相关评估细节已在 System Card 中公开。

6- 生态赋能

为激发社区创新,OpenAI 同步发布了实验性的开源项目 Codex CLI ,允许开发者通过终端直接调用 o3 和 o4-mini 模型,在本地实现代码生成与多模态推理代理。

此外,OpenAI 设立了总额达 100 万美元的资助计划,以 API 积分形式(单个项目最高可获 2.5 万美元)支持采用 Codex CLI 和 OpenAI 模型的创新应用与开源实验。

图片

7- 小结

OpenAI 表示,此次发布的 o3 与 o4-mini 代表了其融合 o 系列深度推理优势与 GPT 系列流畅对话、广泛工具集成能力的发展方向,目标是打造一个既能自然交互,又能主动规划、自主执行任务的多模态超级助手。

本次更新不仅树立了生成式 AI 在多模态推理、工具自主性和高效安全方面的新标杆,也为下一阶段人工智能的研究与应用落地奠定了坚实基础(OpenAI 模型单项能力不一定突出,但多模态综合能力目前鲜有对手)。

8- 附录

性能评估:所有模型都在高 " 推理努力 " 设置下进行评估——类似于 ChatGPT 中的 “o4-mini-high” 等变体。

图片 图片 图片

9- 案例分享

9.1- 照片识别

这次 ChatGPT 推送很及时,我就简单测了一下,相比于之前的 gpt-4o,确实提升显著。我发了一张书籍照片(以前上学时的课本),虽未识别出所有书籍,且存在错误,但相比于之前的模型,有被震惊到。

图片 图片

为了更直观展示推理过程中的截图、缩放图片,我录制了一个视频(第二次推理用时接近 12 分钟)。

9.2- 网友分享

从下面几张不同场景任务的截图来看,用户对 o3 的评价还不错。

图片 图片 图片

9.3- 碰撞球对比

网上有人做了编程测试,可以明显看出 o3、o4-mini 更自然(视频转为 GIF 有丢帧,所以会感觉卡顿)。

图片

9.4- Dan Shipper 分享

Dan Shipper 是 o3 早期测试用户,在一周深度体验后评价其为继 GPT‑4 以来最大惊喜(原文 Vibe Check: o3 Is Here—And It’s Great :它能在一次对话中自主循环调用网页搜索、代码解释器、提醒与记忆等工具,30 秒到数分钟内完成多步任务,速度和准确度均明显领先 Anthropic 3.7 Sonnet 和 Google Gemini 2.5 Pro。

o3 不仅快速解出专家级数独,还可读整本书做大纲、生成每日微课程、分析会议记录提供反馈、审视公司组织架构、定制 YouTube 播放列表,甚至通过多次裁剪模糊照片识别品牌。

相较旧版 ChatGPT,它更少胡诌,遇信息缺口会主动索要;社交表现不再尴尬,也避免 " 用力过猛 "。局限在于偏爱表格近乎病态、偶尔视觉跑偏、超长文本偶发幻觉与长聊疲劳,但整体错误率已低于同类。作者除长篇写作仍用 GPT‑4.5、重度编码仍用 Sonnet 外,其余工作已全面迁至 o3,认为该模型标志着 OpenAI 在沉寂一年后的强势回归。

9.5- References

[1] Introducing OpenAI o3 and o4-mini: https://openai.com/index/introducing-o3-and-o4-mini
[2] LiveBench: https://livebench.ai
[3] Preparedness Framework: https://openai.com/index/updating-our-preparedness-framework
[4] System Card: https://openai.com/index/o3-o4-mini-system-card
[5] Codex CLI: https://github.com/openai/codex
[6] Vibe Check: o3 Is Here—And It’s Great: https://every.to/chain-of-thought/vibe-check-o3-is-out-and-it-s-great