就在大家还在热议Claude Sonnet 4.5的惊艳表现时,Anthropic又悄悄扔下一颗“重磅炸弹”——Claude Haiku 4.5 正式上线!

这是Haiku系列时隔近一年的重磅升级,虽然它依然是Anthropic产品线中“最轻量”的模型,但这次的升级,堪称“小钢炮”级别的逆袭:性能直逼五个月前还被誉为“最强编程模型”的Claude Sonnet 4,甚至在某些任务上实现反超!

更关键的是,它依然保持了极致的性价比——速度更快、价格更低,还一口气带来了多项此前只属于顶级模型的高级功能。

今天,我们就来深度拆解,这款“以一敌三”的Claude Haiku 4.5,到底有多强?

什么是Claude Haiku 4.5?

简单来说,Haiku 4.5是一款“小而美、快而强”的AI模型。

它支持高达 20万token的上下文窗口,最多可输出6.4万token,不仅能处理文本,还能理解图像。更重要的是,它是第一款支持“扩展思考”、“电脑操作”和“上下文感知” 等高级功能的Haiku模型。

Anthropic官方表示,如果你需要一个响应迅速、延迟极低的AI助手——比如用于智能客服、实时编程搭档或对话机器人——Haiku 4.5将是你的理想选择。

价格贵了吗?值不值?

先说大家最关心的价格问题:

输入:1美元/百万token

输出:5美元/百万token

相比前代Haiku 3.5,价格上涨了25%。但别急着皱眉——性能的飞跃,完全对得起这波涨价。

要知道,早期的Haiku曾是Sonnet价格的1/12,如今虽然差距缩小到约3倍(Sonnet 4.5为3/15/15),但Haiku 4.5的性能已接近Sonnet 4,甚至逼近Sonnet 4.5。

一句话总结:你花三分之一的钱,买到了五个月前顶级模型的性能,还更快、更便宜。这笔账,怎么算都值!

三大“越级”新功能,太强了!

 01

扩展思考(Extended Thinking)

开启后,模型会像人类一样“多想一会儿”,把复杂问题拆解成步骤,边想边输出推理过程。你不仅能看见它的“思考链”,还能判断逻辑是否合理,大幅提升可信度。

02

电脑操作(Computer Use)

这才是真正的“AI操作电脑”!Haiku 4.5能像人一样:

  • 看懂软件界面截图

  • 移动光标、点击按钮

  • 填写表单、打开链接

  • 操作计算器、记事本等工具

在OSWorld-Verified测试中,Haiku 4.5的任务成功率高达50.7%,不仅碾压Sonnet 3.5的14%,还超过了Sonnet 4的42.2%!要知道,它可是便宜了三倍。

 03

上下文感知(Context Awareness)

上下文感知意味着模型能够追踪其上下文窗口(token)在对话中的使用情况。这有助于模型更高效地管理其有限的 20 万个上下文窗口,避免在任务执行过程中耗尽上下文。 

例如,假设 Haiku 知道它即将达到上下文限制。在这种情况下,它可以自动总结之前的步骤,存储关键细节,并从旧任务中移除完整的上下文,为新上下文腾出空间。

实测:一句话生成完整应用,太丝滑!

在Claude网页端测试了几个任务,结果令人震惊。

 01

任务1:生成一个“个人记账App”

我只给了一段描述性提示(关于界面风格、功能需求等),Haiku 4.5几秒内就生成了一个完整的响应式应用原型,包含:

  • 预算目标追踪

  • 消费分类记录

  • 数据可视化图表

  • 月度总结页面

完全符合需求,代码整洁,界面现代。更夸张的是,它只用了一条指令就完成了整个项目,和Sonnet 4.5的表现几乎一模一样,但速度快了近一倍。

02

任务2:根据截图重构UI

接下来,我想看看 Haiku 4.5 处理视觉输入的效果如何。我上传了一张截图,并提示它“创建与截图中相同的应用程序,但将左侧菜单栏添加到标题部分”。

模型立即生成与屏幕截图非常相似的界面,这次菜单按照要求整齐地重新定位在页面顶部。 

不过,这个版本是静态的,每个菜单部分显示的内容都一样。所以我又提出了另一个添加功能的建议:

  • 为菜单栏中的每个部分添加功能。当前页面代表主页部分。

  • 最近添加部分应显示用户最近添加的歌曲列表。

  • 艺术家部分应该按流行艺术家来组织歌曲。

  • 专辑部分应使用文件夹式结构按专辑对歌曲进行分类。

  • “歌曲”部分应该包含一个搜索栏,方便用户搜索歌曲。搜索栏下方应显示用户最近互动过的歌曲列表。

Haiku 再次快速响应,扩展了 UI,涵盖了所有请求的功能。例如,下图展示了“相册”部分。

官方Benchmark:全面超越Sonnet 4!

随着 Claude Haiku 4.5 的发布,Anthropic 分享了一整套基准测试结果,将其与 Sonnet 4.5、Sonnet 4、GPT-5 和Gemini 2.5 Pro进行了比较。当你同时考虑速度和成本时,这些数字确实令人印象深刻。

为了提供一些背景信息,以下是 Anthropic 的测试结果以及 Haiku 4.5 的突出之处:

 01

代理编码

Anthropic 使用 SWE-bench Verified 基准测试了其 AI 模型,该基准衡量模型修复 GitHub 存储库中 500 个真实错误的能力。Anthropic 表示,他们计算了 50 次独立运行的结果平均值,以确保结果在统计上可靠。结果显示,Claude Haiku 4.5 的准确率达到了 73.3%,是继 Claude Sonnet 4.5 之后的最高准确率,甚至超过了 Sonnet 4 模型。

02

计算机使用

在计算机使用测试中,Anthropic 采用了 OSWorld 验证框架。该数据集评估模型执行实际计算机任务(例如打开文件、管理设置以及与网站交互)的效率。Haiku 4.5 再次表现出色,排名略低于 Sonnet 4.5,并优于 Sonnet 4。

 03

视觉推理

Anthropic 使用 MMMU(大规模多学科多模态理解)基准测试了视觉推理能力。该基准衡量模型在多个领域解释和推理文本和图像的能力。结果显示,在 128k 的计算预算下,GPT-5以 84.2% 的准确率领先。Claude Sonnet 4 和 Haiku 4.5 紧随其后,准确率分别为 74.4% 和 73.2%。

总结

Haiku 4.5的发布,不是简单的迭代,而是一次“性能跃迁”。

它让我们看到:轻量模型,也能拥有接近顶级的智能。用三分之一的价格,买到五个月前的“最强模型”体验,还多了电脑操作、扩展思考等高级功能。

Logo

中科创新烁智(CSCITech)

更多推荐