GPT-5.4 重磅发布：OpenAI 重新定义「生产力 AI」

Leinwin · 2026-03-06 14:57:35 发布

OpenAI近日正式推出了其新一代旗舰模型GPT-5.4。此次发布不仅标志着一次全面的技术能力跃迁，更被明确赋予了全新的产品定位——为可靠AI生产而生。模型已全面登陆ChatGPT、API及Microsoft Foundry平台，旨在帮助各类组织实现从智能试验到规模化、可靠落地的关键跨越。

全能型技术底座：性能、感知与操控的全面革新

根据官方数据，GPT-5.4在多项基准测试中刷新纪录。其在评估专业知识的M3Exam基准中表现优异，在编程基准SWE-Bench Pro上达到57.7%，而GPT-5.4 Pro版本在抽象推理测试ARC-AGI-2中更取得了83.3%的高分。

首个原生集成“计算机使用”能力的通用模型是本次升级的核心突破。GPT-5.4能够通过解读屏幕截图，模拟人类的键鼠操作，在真实的软件和网页环境中执行任务。在衡量桌面操作能力的OSWorld基准上，其以75.0%的成功率超越了人类平均水平（72.4%）。这为其深度融入现有工作流奠定了基石。

同时，模型在专业办公场景的能力得到深度优化。在一项模拟初级投资银行分析师工作的内部电子表格建模测试中，其平均得分达到87.3%。OpenAI亦强调，GPT-5.4是其“迄今为止最注重事实的模型”，相较于前代，其产生错误声明的概率显著降低。

与以往迭代不同，GPT-5.4的设计哲学清晰地指向了真实的业务生产环境。其升级重点直接应对企业AI落地中最关键的挑战：指令遵循的一致性、上下文的长期保持，以及复杂任务的持续完成能力。

为此，模型在多个维度进行了针对性强化：

更持续的长期推理：在多轮对话与多步骤任务中，能更好地对齐初始目标，显著降低任务偏离风险。
更可靠的工具调用与智能体协作：显著提升自动化流程的成功率。新引入的“工具搜索”功能，允许模型动态查找工具定义，在处理大型工具生态时，能将总token消耗降低高达47%。
更高质量的生成结果：在文档、表格、演示文稿等输出中保持优秀的结构一致性与专业性。

这些能力共同致力于一个目标：当AI智能体被部署于更长、更复杂的核心业务链条时，其行为依然可预测、可控且值得信赖。

为满足不同生产场景的需求，OpenAI推出了双版本模型：

GPT-5.4 (标准版)：侧重于执行力、自动化与智能体协作。它优化了响应延迟，更适合对实时性要求高的智能体驱动流程（如客服、自动化流程）和常规知识工作。
GPT-5.4 Pro：以“严谨推理优先”，适用于科研分析、复杂决策与高风险判断场景。它在多路径推理、评估与超长推理链的稳定性方面能力更强，优先保证分析的深度与完整性。

GPT-5.4旨在带来直接、可衡量的业务价值，尤其在高度重视“结果确定性”的场景中：

智能体驱动的业务流程：减少任务中断与流程失败率。
企业级知识工作：提升从数据分析到汇报材料生成的输出质量与效率。
开发者工作流：完整继承顶级编程能力，结合计算机使用能力，展示了强大的应用生成潜力。OpenAI同期发布的三个由GPT-5.4生成的演示应用（如模拟经营游戏、交互式3D场景），正是其融合编码、视觉与操控能力的缩影。