GPT-5.4 炸场发布！疯狂屠榜、超过Claude 和 Gemini

程序IT圈

154人浏览 · 2026-03-06 09:31:23

程序IT圈 · 2026-03-06 09:31:23 发布

今天凌晨2点10分，OpenAI正式发布了GPT-5.4模型，已经可以在ChatGPT、API和Codex中使用了。

本次共有Thingking和Pro两种模型，在性能方面超过了Claude最新的Opus 4.6和谷歌的Gemini 3.1pro。

性能更强、成本更低

咱们先聊聊5.4的核心技术亮点，我最直观的感受就是，GPT-5.4做专业相关的活，越来越靠谱了。

以前用AI做表格、写报告，总担心出错，还得自己反复核对，现在它输出的内容，一致性和准确性都提升了不少，甚至能媲美行业里的专业人士。

有个测试特别能说明问题，针对美国九个主流行业的44个职业，测试AI做标准化工作的能力，GPT-5.4的表现有83%的场景能赶上甚至超过专业人士，而上一代只有70.9%。

像销售PPT、会计报表、急诊排班表这些实际工作要做的事，都能轻松搞定，连制造业图纸、短视频脚本都不在话下。

尤其是做表格和PPT，进步真的肉眼可见。以前AI做的表格，公式容易错，排版也乱；PPT更是千篇一律，没什么设计感。

现在GPT-5.4做投行分析师的表格建模，平均分能到87.3%，比上一代高了快20个百分点；做的PPT，视觉设计更精致，版式也更多样，有68%的人都觉得比上一代做得好。

错误率也降了不少。以前用AI查资料，总怕它瞎编，也就是大家常说的“幻觉”。

现在GPT-5.4单条表述的错误率比上一代降了33%，完整回答出错的概率也降了18%。

用来做法律分析、财务模型这种需要精准度的活，也更放心了。

计算机操作，比人类还猛

这绝对是GPT-5.4最惊艳我的地方，以前的AI只能帮你写文字、出思路，不能直接操作电脑。

现在它终于能自己动手了，相当于给你配了一个全天候在线的电脑操作AI助理。

能适配各种电脑操作场景，既能通过代码控制电脑，也能看着截图，用鼠标和键盘指令操作。

比如你让它发邮件、安排日历、批量录入数据，它都能自己完成，不用你手动一步步来。

而且它的视觉理解能力也升级了，能看懂高分辨率的图片和截图，以前有些模糊的截图，AI识别不准，现在哪怕是细节很多的界面，它也能精准定位，点击操作也更准确。

OpenAI还新增了一个“原始”图像精度档位，能支持更高像素的图片，对于做设计、看图纸的人来说，真的太实用了。

有个第三方测试，针对三万多个业主协会和房产税门户网站，GPT-5.4第一次尝试操作的成功率就有95%，三次以内基本能100%成功。

比以前的操作智能体强太多了，速度还快了3倍，token消耗也少了70%，规模化用起来特别划算。

代码能力大升级

对于程序员来说，GPT-5.4绝对是福音。它继承了GPT-5.3-Codex在写代码上的优势，还结合了新的办公和操作能力，做长周期的开发任务特别顺手。

比如需要反复调试、用各种工具辅助的项目，它能省不少事。

最实用的是，在Codex里开启快速模式后，它的token生成速度能提升1.5倍，写代码、调试的速度快了很多，程序员不用再等半天，能保持连贯的工作节奏。

而且它做复杂前端开发也很厉害，生成的页面不仅好看，功能还特别全，比上一代模型做出来的效果好太多。

例如，只用一个简单的指令，GPT-5.4就借助工具，开发出了一个交互式的主题公园模拟游戏，能布置路径、搭建游乐设施。

还能监控游客状态、资金情况，甚至能自动完成浏览器测试，不得不说，这能力真的超出预期了。

AI终于更像人了

不知道大家有没有过这种体验，用AI做复杂任务，一开始说清楚了需求，结果做着做着就偏了，还得重新发指令，特别麻烦。

GPT-5.4就解决了这个问题，它在处理复杂任务的时候，会先跟你说清楚它的做事思路，你觉得不对，中途就能调整，不用重新发起请求。

而且它的记忆力也更好了，处理高难度任务的时候，能记住对话前期的步骤，不会做着做着就忘了之前的要求，哪怕是很长的工作流、很复杂的指令，它也能连贯完成，不用我们反复提醒。

目前这个功能已经在网页版和安卓端上线了，iOS端也快了，用起来会更方便。

此外，以前用AI调用工具，得提前把所有工具的用法都告诉它，工具多了，不仅麻烦，还特别耗token，响应也慢。

现在GPT-5.4新增了工具检索功能，就像我们用搜索引擎找东西一样，它需要哪个工具，自己就能实时查询用法，不用我们提前铺垫。

这样一来，不仅省了很多token，响应速度也快了，面对一大堆工具的时候，AI也能轻松应对。

测试数据显示，用工具检索模式，总token消耗能减少47%，准确率还不变，对于需要用很多工具的企业来说，能省不少成本。

而且它调用工具的逻辑也更聪明了，能自己判断什么时候需要用工具、怎么用工具，不用我们反复提醒。

比如让它读取邮件、提取附件、给文件评分再录入表格，它能一步到位，比上一代少走很多弯路。

上网找信息的能力也升级了，以前有些“大海捞针”式的精准查询，AI找半天找不到。

现在GPT-5.4能通过多轮检索，找到最相关的信息，还能整合起来，给出清晰的回答，比我们自己上网找效率高多了。

最后跟大家说下大家最关心的上线渠道和价格。GPT-5.4现在已经在ChatGPT和Codex平台逐步上线了，API端也推出了标准版和专业版，专业版主要针对有复杂任务需求的开发者。

在ChatGPT里，Plus、团队版、专业版用户现在就能用GPT-5.4思维版，替代了之前的GPT-5.2思维版。以前的GPT-5.2会在历史模型板块保留3个月，6月5号就正式下线了。

价格方面，API端的GPT-5.4单token定价比GPT-5.2高一点，每一百万输入token 2.5美元，输出是每一百万15美元。但它更省token，总体算下来，多数任务的成本反而更低。

龙虾开发者社区

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地，聚焦技能开发、插件实践与部署教程，为开发者提供可直接落地的方案、工具与交流平台，助力高效构建与落地 AI 应用

更多推荐

cover

ComAct：工业 Agent 为什么要把专业软件变成可执行动作

龙虾开发者社区

cover

程序员必看！自定义Skill原来这么简单

龙虾开发者社区

cover

解构 Agent Skills：从意图匹配到工具调用的完整链路（上篇）

龙虾开发者社区

所有评论(0)

查看更多评论

程序IT圈

已为社区贡献11条内容