基于 OpenAI 官方发布页整理:Introducing GPT-5.4
发布时间:2026 年 3 月 5 日
文章定位:中等篇幅、偏技术分析,帮助 AI 爱好者与从业者快速理解 GPT-5.4 最值得被 highlight 的部分。

一句话结论

如果只用一句话概括 GPT-5.4,那么它不是一次单点能力升级,而是 OpenAI 将推理、编码、工具调用、计算机操作、专业知识工作整合到一个主力模型中的一次“平台型合并”。

对普通用户来说,GPT-5.4 是更强的 ChatGPT Thinking。
对开发者来说,GPT-5.4 更重要的意义在于:它开始像一个更可靠、成本更可控、能跨工具和软件系统持续执行任务的通用 Agent 基座模型。

GPT-5.4 到底是什么

OpenAI 在官网中对 GPT-5.4 的定位非常明确:这是其“面向专业工作最强、也最有效率的 frontier model”。同时,官方还推出了 GPT-5.4 Pro,面向复杂任务追求极致性能的用户。

这次发布有几个关键信号:

  1. GPT-5.4 已经不是单纯的“更会聊天的模型”,而是一个面向真实工作流的综合模型。
  2. 它不是只强化某一个 benchmark,而是把最近几个版本分散提升的能力收拢到了同一个主模型里。
  3. OpenAI 明确把它同时推向 ChatGPTAPICodex,说明它的目标不是演示能力,而是作为通用生产力模型落地。

换句话说,GPT-5.4 的价值,不只是“更聪明”,而是“更适合拿来干活”。

最值得 Highlight 的 6 个点

1. 面向专业知识工作的能力,进入了更可用的阶段

这是 GPT-5.4 最容易被低估,但其实最重要的一点。

官方给出的核心指标是 GDPval。这是一个覆盖 44 种职业、横跨美国 GDP 贡献最高 9 大行业的知识工作 benchmark,任务类型包括销售演示文稿、财务表格、排班、制造图示、短视频等真实工作产物。

在这个评测上:

  • GPT-5.4 的 wins or ties 达到 83.0%
  • GPT-5.270.9%

这不是小幅进步,而是一个非常明显的跃升。它说明 GPT-5.4 的提升不只体现在解题,而是体现在对真实业务交付物的稳定输出能力

官方还额外强调了三类办公室场景:

  • 电子表格
  • 演示文稿
  • 文档写作与编辑

其中一个很醒目的数据是,在内部投资银行建模任务上:

  • GPT-5.487.3%
  • GPT-5.268.4%

此外,在演示文稿质量对比中,人工评审有 68.0% 的情况下更偏好 GPT-5.4 生成的结果,原因是美观性更强、视觉变化更多、图像生成配合更有效。

这意味着 GPT-5.4 不只是“能写内容”,而是在逐步逼近一种更完整的知识工作输出能力:分析、组织、呈现和交付

2. 幻觉和事实错误继续下降,这对企业场景尤其关键

很多模型升级宣传喜欢讲“更强”,但对企业和专业用户来说,真正决定可用性的往往不是峰值能力,而是错误率和返工率

OpenAI 在官网中给出的表述很直接:GPT-5.4 是其“最 factual 的模型”。

相对 GPT-5.2:

  • 单条 claim 出错概率降低 33%
  • 完整回答中出现任意错误的概率降低 18%

这组数据非常值得关注,因为它直接对应几个现实问题:

  • 文档是否敢直接拿去改写或二次使用
  • 分析结论是否需要大量人工复核
  • 长文本任务中是否容易出现细节偏移

对于法律、金融、咨询、研究、运营分析这类场景,GPT-5.4 的意义不在于“完全不会错”,而在于更接近可以纳入正式工作流的可靠水平

3. 原生 Computer Use,是这次发布里技术含量很高的一步

OpenAI 明确表示,GPT-5.4 是它们发布的第一个具备原生、SOTA 级 computer-use 能力的通用模型

这句话的含义很重。此前很多模型虽然也能做 agent、浏览器操作、桌面自动化,但往往是外挂式、链路脆弱,或者只在特定任务下表现好。GPT-5.4 这次的方向是把“操作计算机”变成主模型能力的一部分。

官网提到它可以:

  • 编写代码通过 Playwright 等库操作电脑
  • 基于截图发出鼠标和键盘动作
  • 通过开发者消息控制行为
  • 通过自定义确认策略调整安全边界

几个关键评测数据也很亮眼:

  • OSWorld-Verified75.0%
  • GPT-5.247.3%
  • 人类表现:72.4%

也就是说,在一个典型的桌面环境多模态操作 benchmark 上,GPT-5.4 已经超过了公开的人类基线

浏览器使用方面:

  • WebArena-Verified67.3%
  • Online-Mind2Web92.8%

如果你在做以下方向,这一点尤其值得重视:

  • 浏览器 Agent
  • RPA 自动化
  • 软件测试自动化
  • 跨 SaaS 系统任务编排
  • 基于截图和 UI 交互的桌面代理

它意味着“模型理解界面并持续执行操作”这件事,开始从实验能力走向工程可用。

4. 编码能力不再孤立,而是和 Agent 工作流真正结合

GPT-5.4 的另一个重要定位,是把 GPT-5.3-Codex 的编码能力并入主线模型。

这件事的影响比表面看起来更大。过去一段时间,很多团队面临一个选择:

  • 想要更强编码能力,用专门模型
  • 想要更强推理、文档和工具协作,用通用模型

GPT-5.4 试图把这个割裂状态收敛掉。

在公开 SWE-Bench Pro 上:

  • GPT-5.457.7%
  • GPT-5.3-Codex56.8%
  • GPT-5.255.6%

单看分数提升不算夸张,但官方强调了一个更重要的点:GPT-5.4 在更长任务链条中,把编码、工具使用、计算机操作和迭代能力结合得更好,同时延迟更低。

这对于实际研发工作比单次代码补全更重要,因为真实开发往往是:

  • 读代码
  • 搜索工具
  • 修改实现
  • 调试
  • 跑测试
  • 再修

也正因为如此,OpenAI 还发布了实验性技能 Playwright (Interactive),用于让 Codex 在构建 Web/Electron 应用时进行可视化调试和边建边测。

如果你的关注点是 AI Coding,那么 GPT-5.4 的价值可以概括为一句话:

它不只是更会写代码,而是更接近一个可以自己推进开发流程的模型。

5. Tool Search 值得所有做 Agent 平台的人重点关注

这一点是官网里最“工程化”、也最容易被外行忽略的升级。

OpenAI 在 API 中为 GPT-5.4 引入了 tool search。它解决的是一个非常现实的问题:

当系统里工具很多时,如果每次请求都把全部工具定义塞进 prompt,会带来三个问题:

  • token 成本上升
  • 响应变慢
  • 上下文被大量暂时用不到的工具说明污染

GPT-5.4 的做法是:

  • 先给模型一个轻量级工具列表
  • 当模型真正需要某个工具时,再去检索对应定义并加入上下文

这个设计非常像把“大量静态工具 schema”改造成“按需加载的工具索引层”。对于 MCP、插件生态、多连接器平台来说,这是非常关键的一步。

官网在 MCP Atlas 的 250 个任务上做了实验,对 36 个 MCP servers 开启两种模式:

  1. 直接把所有 MCP 函数暴露到上下文
  2. 通过 tool search 管理

结果是:

  • 总 token 使用下降 47%
  • 准确率保持不变

这几乎可以说是一个非常实用的 agent infra 升级。

如果你正在做:

  • MCP 工具生态
  • 多工具 Agent
  • 企业内部插件平台
  • 长链路 workflow orchestration

那么 GPT-5.4 的 tool search 可能比单纯 benchmark 提升更值得重点研究。

6. 长上下文和更高 token 效率,让复杂任务的经济性更现实

OpenAI 表示,GPT-5.4 支持最高 1M tokens 上下文,适合让 agent 在长链路任务中进行计划、执行和校验。

同时,官方还强调:GPT-5.4 是其token efficiency 最好的 reasoning 模型,相较 GPT-5.2,解决问题时使用的 token 显著更少,因此能够带来更低 token 消耗和更快速度。

这里有两个实际判断:

  1. 对复杂工作流来说,单次调用价格不是唯一指标,总 token 消耗更关键。
  2. 更高上下文长度的价值,不只是“能塞更多文本”,而是让模型能在更长流程里保留任务状态。

当然,也要注意边界:

  • Codex 中,1M context 目前还是实验支持
  • 标准上下文窗口仍是 272K
  • 超出标准窗口的请求按 2x 用量计费

所以 GPT-5.4 的长上下文更适合高价值、长链条任务,而不是所有场景都无脑拉满。

还要注意的两个细节

1. 可引导性更强

在 ChatGPT 中,GPT-5.4 Thinking 会先给出一个前置工作计划,用户可以在其生成过程中调整方向,而不是等它全部完成后再重新来一轮。

这背后对应的是一个很实用的产品思路:
把“先思考再输出”的过程部分暴露出来,让用户能在中途纠偏。

对于复杂分析、长文生成、方案设计类任务,这会明显减少往返轮数。

2. 安全策略更贴近高能力模型的真实部署要求

OpenAI 将 GPT-5.4 按 High cyber capability 级别处理,并配套了更完整的防护栈。官网还提到,其对 Chain-of-Thought controllability 的测试结果显示,GPT-5.4 Thinking 刻意隐藏推理过程的能力较低,这被视为一个有利于安全监控的信号。

对开发者来说,这意味着一件事:
GPT-5.4 的增强,不是只在能力侧加码,也在为更高权限、更高自治度的 agent 使用场景配套约束。

价格、版本与可用性,怎么理解

可用性方面:

  • ChatGPT Plus / Team / Pro 用户可用 GPT-5.4 Thinking
  • Pro / Enterprise 可用 GPT-5.4 Pro
  • API 模型名为 gpt-5.4
  • Pro 版本 API 模型名为 gpt-5.4-pro
  • GPT-5.2 Thinking 会以 Legacy 形式保留 3 个月,之后在 2026 年 6 月 5 日退役

API 价格方面,官网给出的标准价格为:

模型 输入价格 缓存输入价格 输出价格
gpt-5.2 $1.75 / M tokens $0.175 / M tokens $14 / M tokens
gpt-5.4 $2.50 / M tokens $0.25 / M tokens $15 / M tokens
gpt-5.2-pro $21 / M tokens - $168 / M tokens
gpt-5.4-pro $30 / M tokens - $180 / M tokens

结论很直接:

  • GPT-5.4 单价比 GPT-5.2 更高
  • 但如果它确实能用更少 token 完成任务,总成本未必更高
  • 对复杂、多工具、长链条任务,整体 ROI 可能反而更好

谁最应该关注 GPT-5.4

结合官网信息,我认为以下几类人最应该认真看 GPT-5.4:

1. 做 AI Agent 和工具平台的人

重点不是聊天质量,而是:

  • native computer use
  • tool search
  • 更稳定的 tool calling
  • 1M context
  • 更低 token 消耗

这些能力组合起来,直接关系到 agent 的工程上限。

2. 做 AI Coding 和开发效率工具的人

如果你的产品场景是:

  • 代码生成
  • 自动调试
  • 测试执行
  • 前端搭建
  • 软件环境内持续迭代

那么 GPT-5.4 是一个值得重点试验的新基座,因为它把“编码能力”和“操作环境能力”更紧地耦合在了一起。

3. 做知识工作自动化的人

包括但不限于:

  • 咨询
  • 金融
  • 法务
  • 运营分析
  • 商务文档
  • 幻灯片与表格生成

GPT-5.4 在这部分的进步可能比大众想象中更大,因为这恰恰是离商业化最近、也是最容易形成工作流闭环的场景。

我的判断:GPT-5.4 真正值得高亮的,不是“更强”,而是“更完整”

如果把 OpenAI 最近几个版本串起来看,GPT-5.4 的意义并不只是一次常规模型升级。

它更像是在回答一个行业问题:

未来真正有生产力价值的模型,到底应该长什么样?

从这次官网信息来看,OpenAI 给出的答案是:

  • 要有强推理
  • 要能写代码
  • 要能用工具
  • 要能操作软件和网页
  • 要能处理文档、表格、演示文稿
  • 要在长流程中保持上下文
  • 还要把成本和时延控制在可落地范围内

从这个角度看,GPT-5.4 最值得被 highlight 的地方,不是某一项指标冲到了多高,而是它开始表现出一种更接近“通用工作模型”的形态。

这对整个 AI 应用层意味着一件事:
下一阶段的竞争,可能不再只是比谁回答更像人,而是比谁更能独立完成真实工作

适合放在文末的总结

GPT-5.4 是一次非常典型的“面向实用落地”的升级。它把 reasoning、coding、computer use、tool use 和 knowledge work 拉进了同一个主力模型中。对 AI 爱好者而言,值得关注的是它展示了通用 Agent 的下一步形态;对从业者而言,更值得关注的是它在真实工作流中的工程收益,包括更少返工、更少 token、更强工具协同,以及更高的复杂任务完成率。

如果你关心的方向是 Agent、AI Coding、企业知识工作自动化,GPT-5.4 基本可以列入近期最值得重点评估的模型之一。

参考来源

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐