GPT-5.4 值得关注什么:一篇看懂 OpenAI 新主力模型的技术向分析(GPT-5.4模型生成,medium reasoning)
基于 OpenAI 官方发布页整理:
Introducing GPT-5.4
发布时间:2026 年 3 月 5 日
文章定位:中等篇幅、偏技术分析,帮助 AI 爱好者与从业者快速理解 GPT-5.4 最值得被 highlight 的部分。
一句话结论
如果只用一句话概括 GPT-5.4,那么它不是一次单点能力升级,而是 OpenAI 将推理、编码、工具调用、计算机操作、专业知识工作整合到一个主力模型中的一次“平台型合并”。
对普通用户来说,GPT-5.4 是更强的 ChatGPT Thinking。
对开发者来说,GPT-5.4 更重要的意义在于:它开始像一个更可靠、成本更可控、能跨工具和软件系统持续执行任务的通用 Agent 基座模型。
GPT-5.4 到底是什么
OpenAI 在官网中对 GPT-5.4 的定位非常明确:这是其“面向专业工作最强、也最有效率的 frontier model”。同时,官方还推出了 GPT-5.4 Pro,面向复杂任务追求极致性能的用户。
这次发布有几个关键信号:
GPT-5.4已经不是单纯的“更会聊天的模型”,而是一个面向真实工作流的综合模型。- 它不是只强化某一个 benchmark,而是把最近几个版本分散提升的能力收拢到了同一个主模型里。
- OpenAI 明确把它同时推向
ChatGPT、API和Codex,说明它的目标不是演示能力,而是作为通用生产力模型落地。
换句话说,GPT-5.4 的价值,不只是“更聪明”,而是“更适合拿来干活”。
最值得 Highlight 的 6 个点
1. 面向专业知识工作的能力,进入了更可用的阶段
这是 GPT-5.4 最容易被低估,但其实最重要的一点。
官方给出的核心指标是 GDPval。这是一个覆盖 44 种职业、横跨美国 GDP 贡献最高 9 大行业的知识工作 benchmark,任务类型包括销售演示文稿、财务表格、排班、制造图示、短视频等真实工作产物。
在这个评测上:
GPT-5.4的 wins or ties 达到83.0%GPT-5.2为70.9%
这不是小幅进步,而是一个非常明显的跃升。它说明 GPT-5.4 的提升不只体现在解题,而是体现在对真实业务交付物的稳定输出能力。
官方还额外强调了三类办公室场景:
- 电子表格
- 演示文稿
- 文档写作与编辑
其中一个很醒目的数据是,在内部投资银行建模任务上:
GPT-5.4:87.3%GPT-5.2:68.4%
此外,在演示文稿质量对比中,人工评审有 68.0% 的情况下更偏好 GPT-5.4 生成的结果,原因是美观性更强、视觉变化更多、图像生成配合更有效。
这意味着 GPT-5.4 不只是“能写内容”,而是在逐步逼近一种更完整的知识工作输出能力:分析、组织、呈现和交付。
2. 幻觉和事实错误继续下降,这对企业场景尤其关键
很多模型升级宣传喜欢讲“更强”,但对企业和专业用户来说,真正决定可用性的往往不是峰值能力,而是错误率和返工率。
OpenAI 在官网中给出的表述很直接:GPT-5.4 是其“最 factual 的模型”。
相对 GPT-5.2:
- 单条 claim 出错概率降低
33% - 完整回答中出现任意错误的概率降低
18%
这组数据非常值得关注,因为它直接对应几个现实问题:
- 文档是否敢直接拿去改写或二次使用
- 分析结论是否需要大量人工复核
- 长文本任务中是否容易出现细节偏移
对于法律、金融、咨询、研究、运营分析这类场景,GPT-5.4 的意义不在于“完全不会错”,而在于更接近可以纳入正式工作流的可靠水平。
3. 原生 Computer Use,是这次发布里技术含量很高的一步
OpenAI 明确表示,GPT-5.4 是它们发布的第一个具备原生、SOTA 级 computer-use 能力的通用模型。
这句话的含义很重。此前很多模型虽然也能做 agent、浏览器操作、桌面自动化,但往往是外挂式、链路脆弱,或者只在特定任务下表现好。GPT-5.4 这次的方向是把“操作计算机”变成主模型能力的一部分。
官网提到它可以:
- 编写代码通过
Playwright等库操作电脑 - 基于截图发出鼠标和键盘动作
- 通过开发者消息控制行为
- 通过自定义确认策略调整安全边界
几个关键评测数据也很亮眼:
OSWorld-Verified:75.0%GPT-5.2:47.3%- 人类表现:
72.4%
也就是说,在一个典型的桌面环境多模态操作 benchmark 上,GPT-5.4 已经超过了公开的人类基线。
浏览器使用方面:
WebArena-Verified:67.3%Online-Mind2Web:92.8%
如果你在做以下方向,这一点尤其值得重视:
- 浏览器 Agent
- RPA 自动化
- 软件测试自动化
- 跨 SaaS 系统任务编排
- 基于截图和 UI 交互的桌面代理
它意味着“模型理解界面并持续执行操作”这件事,开始从实验能力走向工程可用。
4. 编码能力不再孤立,而是和 Agent 工作流真正结合
GPT-5.4 的另一个重要定位,是把 GPT-5.3-Codex 的编码能力并入主线模型。
这件事的影响比表面看起来更大。过去一段时间,很多团队面临一个选择:
- 想要更强编码能力,用专门模型
- 想要更强推理、文档和工具协作,用通用模型
GPT-5.4 试图把这个割裂状态收敛掉。
在公开 SWE-Bench Pro 上:
GPT-5.4:57.7%GPT-5.3-Codex:56.8%GPT-5.2:55.6%
单看分数提升不算夸张,但官方强调了一个更重要的点:GPT-5.4 在更长任务链条中,把编码、工具使用、计算机操作和迭代能力结合得更好,同时延迟更低。
这对于实际研发工作比单次代码补全更重要,因为真实开发往往是:
- 读代码
- 搜索工具
- 修改实现
- 调试
- 跑测试
- 再修
也正因为如此,OpenAI 还发布了实验性技能 Playwright (Interactive),用于让 Codex 在构建 Web/Electron 应用时进行可视化调试和边建边测。
如果你的关注点是 AI Coding,那么 GPT-5.4 的价值可以概括为一句话:
它不只是更会写代码,而是更接近一个可以自己推进开发流程的模型。
5. Tool Search 值得所有做 Agent 平台的人重点关注
这一点是官网里最“工程化”、也最容易被外行忽略的升级。
OpenAI 在 API 中为 GPT-5.4 引入了 tool search。它解决的是一个非常现实的问题:
当系统里工具很多时,如果每次请求都把全部工具定义塞进 prompt,会带来三个问题:
- token 成本上升
- 响应变慢
- 上下文被大量暂时用不到的工具说明污染
GPT-5.4 的做法是:
- 先给模型一个轻量级工具列表
- 当模型真正需要某个工具时,再去检索对应定义并加入上下文
这个设计非常像把“大量静态工具 schema”改造成“按需加载的工具索引层”。对于 MCP、插件生态、多连接器平台来说,这是非常关键的一步。
官网在 MCP Atlas 的 250 个任务上做了实验,对 36 个 MCP servers 开启两种模式:
- 直接把所有 MCP 函数暴露到上下文
- 通过 tool search 管理
结果是:
- 总 token 使用下降
47% - 准确率保持不变
这几乎可以说是一个非常实用的 agent infra 升级。
如果你正在做:
- MCP 工具生态
- 多工具 Agent
- 企业内部插件平台
- 长链路 workflow orchestration
那么 GPT-5.4 的 tool search 可能比单纯 benchmark 提升更值得重点研究。
6. 长上下文和更高 token 效率,让复杂任务的经济性更现实
OpenAI 表示,GPT-5.4 支持最高 1M tokens 上下文,适合让 agent 在长链路任务中进行计划、执行和校验。
同时,官方还强调:GPT-5.4 是其token efficiency 最好的 reasoning 模型,相较 GPT-5.2,解决问题时使用的 token 显著更少,因此能够带来更低 token 消耗和更快速度。
这里有两个实际判断:
- 对复杂工作流来说,单次调用价格不是唯一指标,总 token 消耗更关键。
- 更高上下文长度的价值,不只是“能塞更多文本”,而是让模型能在更长流程里保留任务状态。
当然,也要注意边界:
- 在
Codex中,1M context目前还是实验支持 - 标准上下文窗口仍是
272K - 超出标准窗口的请求按
2x用量计费
所以 GPT-5.4 的长上下文更适合高价值、长链条任务,而不是所有场景都无脑拉满。
还要注意的两个细节
1. 可引导性更强
在 ChatGPT 中,GPT-5.4 Thinking 会先给出一个前置工作计划,用户可以在其生成过程中调整方向,而不是等它全部完成后再重新来一轮。
这背后对应的是一个很实用的产品思路:
把“先思考再输出”的过程部分暴露出来,让用户能在中途纠偏。
对于复杂分析、长文生成、方案设计类任务,这会明显减少往返轮数。
2. 安全策略更贴近高能力模型的真实部署要求
OpenAI 将 GPT-5.4 按 High cyber capability 级别处理,并配套了更完整的防护栈。官网还提到,其对 Chain-of-Thought controllability 的测试结果显示,GPT-5.4 Thinking 刻意隐藏推理过程的能力较低,这被视为一个有利于安全监控的信号。
对开发者来说,这意味着一件事:
GPT-5.4 的增强,不是只在能力侧加码,也在为更高权限、更高自治度的 agent 使用场景配套约束。
价格、版本与可用性,怎么理解
可用性方面:
ChatGPT Plus / Team / Pro用户可用GPT-5.4 ThinkingPro / Enterprise可用GPT-5.4 Pro- API 模型名为
gpt-5.4 - Pro 版本 API 模型名为
gpt-5.4-pro GPT-5.2 Thinking会以 Legacy 形式保留 3 个月,之后在 2026 年 6 月 5 日退役
API 价格方面,官网给出的标准价格为:
| 模型 | 输入价格 | 缓存输入价格 | 输出价格 |
|---|---|---|---|
gpt-5.2 |
$1.75 / M tokens |
$0.175 / M tokens |
$14 / M tokens |
gpt-5.4 |
$2.50 / M tokens |
$0.25 / M tokens |
$15 / M tokens |
gpt-5.2-pro |
$21 / M tokens |
- |
$168 / M tokens |
gpt-5.4-pro |
$30 / M tokens |
- |
$180 / M tokens |
结论很直接:
- GPT-5.4 单价比 GPT-5.2 更高
- 但如果它确实能用更少 token 完成任务,总成本未必更高
- 对复杂、多工具、长链条任务,整体 ROI 可能反而更好
谁最应该关注 GPT-5.4
结合官网信息,我认为以下几类人最应该认真看 GPT-5.4:
1. 做 AI Agent 和工具平台的人
重点不是聊天质量,而是:
- native computer use
- tool search
- 更稳定的 tool calling
- 1M context
- 更低 token 消耗
这些能力组合起来,直接关系到 agent 的工程上限。
2. 做 AI Coding 和开发效率工具的人
如果你的产品场景是:
- 代码生成
- 自动调试
- 测试执行
- 前端搭建
- 软件环境内持续迭代
那么 GPT-5.4 是一个值得重点试验的新基座,因为它把“编码能力”和“操作环境能力”更紧地耦合在了一起。
3. 做知识工作自动化的人
包括但不限于:
- 咨询
- 金融
- 法务
- 运营分析
- 商务文档
- 幻灯片与表格生成
GPT-5.4 在这部分的进步可能比大众想象中更大,因为这恰恰是离商业化最近、也是最容易形成工作流闭环的场景。
我的判断:GPT-5.4 真正值得高亮的,不是“更强”,而是“更完整”
如果把 OpenAI 最近几个版本串起来看,GPT-5.4 的意义并不只是一次常规模型升级。
它更像是在回答一个行业问题:
未来真正有生产力价值的模型,到底应该长什么样?
从这次官网信息来看,OpenAI 给出的答案是:
- 要有强推理
- 要能写代码
- 要能用工具
- 要能操作软件和网页
- 要能处理文档、表格、演示文稿
- 要在长流程中保持上下文
- 还要把成本和时延控制在可落地范围内
从这个角度看,GPT-5.4 最值得被 highlight 的地方,不是某一项指标冲到了多高,而是它开始表现出一种更接近“通用工作模型”的形态。
这对整个 AI 应用层意味着一件事:
下一阶段的竞争,可能不再只是比谁回答更像人,而是比谁更能独立完成真实工作。
适合放在文末的总结
GPT-5.4 是一次非常典型的“面向实用落地”的升级。它把 reasoning、coding、computer use、tool use 和 knowledge work 拉进了同一个主力模型中。对 AI 爱好者而言,值得关注的是它展示了通用 Agent 的下一步形态;对从业者而言,更值得关注的是它在真实工作流中的工程收益,包括更少返工、更少 token、更强工具协同,以及更高的复杂任务完成率。
如果你关心的方向是 Agent、AI Coding、企业知识工作自动化,GPT-5.4 基本可以列入近期最值得重点评估的模型之一。
参考来源
- OpenAI Official: Introducing GPT-5.4
更多推荐


所有评论(0)