Anthropic放大招！Claude Haiku 4.5震撼发布：小身材大智慧，性能直逼顶级模型，价格却仅三分之一！

【摘要】Anthropic发布Claude Haiku 4.5模型，这款轻量级AI实现性能跃升，支持20万token上下文窗口与图像理解，新增"扩展思考"、"电脑操作"等高级功能。实测显示其性能接近顶级Sonnet 4.5，价格仅为1/3，在编程、视觉推理等任务中表现优异。特别在计算机操作测试中，任务成功率高达50.7%，远超前代产品，成为性价比极高的AI助

中科创新烁智

811人浏览 · 2025-10-24 10:16:51

中科创新烁智 · 2025-10-24 10:16:51 发布

就在大家还在热议Claude Sonnet 4.5的惊艳表现时，Anthropic又悄悄扔下一颗“重磅炸弹”——Claude Haiku 4.5 正式上线！

这是Haiku系列时隔近一年的重磅升级，虽然它依然是Anthropic产品线中“最轻量”的模型，但这次的升级，堪称“小钢炮”级别的逆袭：性能直逼五个月前还被誉为“最强编程模型”的Claude Sonnet 4，甚至在某些任务上实现反超！

更关键的是，它依然保持了极致的性价比——速度更快、价格更低，还一口气带来了多项此前只属于顶级模型的高级功能。

今天，我们就来深度拆解，这款“以一敌三”的Claude Haiku 4.5，到底有多强？

什么是Claude Haiku 4.5？

简单来说，Haiku 4.5是一款“小而美、快而强”的AI模型。

它支持高达 20万token的上下文窗口，最多可输出6.4万token，不仅能处理文本，还能理解图像。更重要的是，它是第一款支持“扩展思考”、“电脑操作”和“上下文感知” 等高级功能的Haiku模型。

Anthropic官方表示，如果你需要一个响应迅速、延迟极低的AI助手——比如用于智能客服、实时编程搭档或对话机器人——Haiku 4.5将是你的理想选择。

价格贵了吗？值不值？

先说大家最关心的价格问题：

输入：1美元/百万token

输出：5美元/百万token

相比前代Haiku 3.5，价格上涨了25%。但别急着皱眉——性能的飞跃，完全对得起这波涨价。

要知道，早期的Haiku曾是Sonnet价格的1/12，如今虽然差距缩小到约3倍（Sonnet 4.5为3/15/15），但Haiku 4.5的性能已接近Sonnet 4，甚至逼近Sonnet 4.5。

一句话总结：你花三分之一的钱，买到了五个月前顶级模型的性能，还更快、更便宜。这笔账，怎么算都值！

三大“越级”新功能，太强了！

扩展思考（Extended Thinking）

开启后，模型会像人类一样“多想一会儿”，把复杂问题拆解成步骤，边想边输出推理过程。你不仅能看见它的“思考链”，还能判断逻辑是否合理，大幅提升可信度。

电脑操作（Computer Use）

这才是真正的“AI操作电脑”！Haiku 4.5能像人一样：

看懂软件界面截图
移动光标、点击按钮
填写表单、打开链接
操作计算器、记事本等工具

在OSWorld-Verified测试中，Haiku 4.5的任务成功率高达50.7%，不仅碾压Sonnet 3.5的14%，还超过了Sonnet 4的42.2%！要知道，它可是便宜了三倍。

上下文感知（Context Awareness）

上下文感知意味着模型能够追踪其上下文窗口（token）在对话中的使用情况。这有助于模型更高效地管理其有限的 20 万个上下文窗口，避免在任务执行过程中耗尽上下文。

例如，假设 Haiku 知道它即将达到上下文限制。在这种情况下，它可以自动总结之前的步骤，存储关键细节，并从旧任务中移除完整的上下文，为新上下文腾出空间。

实测：一句话生成完整应用，太丝滑！

在Claude网页端测试了几个任务，结果令人震惊。

任务1：生成一个“个人记账App”

我只给了一段描述性提示（关于界面风格、功能需求等），Haiku 4.5几秒内就生成了一个完整的响应式应用原型，包含：

预算目标追踪
消费分类记录
数据可视化图表
月度总结页面

完全符合需求，代码整洁，界面现代。更夸张的是，它只用了一条指令就完成了整个项目，和Sonnet 4.5的表现几乎一模一样，但速度快了近一倍。

任务2：根据截图重构UI

接下来，我想看看 Haiku 4.5 处理视觉输入的效果如何。我上传了一张截图，并提示它“创建与截图中相同的应用程序，但将左侧菜单栏添加到标题部分”。

模型立即生成与屏幕截图非常相似的界面，这次菜单按照要求整齐地重新定位在页面顶部。

不过，这个版本是静态的，每个菜单部分显示的内容都一样。所以我又提出了另一个添加功能的建议：

为菜单栏中的每个部分添加功能。当前页面代表主页部分。
最近添加部分应显示用户最近添加的歌曲列表。
艺术家部分应该按流行艺术家来组织歌曲。
专辑部分应使用文件夹式结构按专辑对歌曲进行分类。
“歌曲”部分应该包含一个搜索栏，方便用户搜索歌曲。搜索栏下方应显示用户最近互动过的歌曲列表。

Haiku 再次快速响应，扩展了 UI，涵盖了所有请求的功能。例如，下图展示了“相册”部分。

官方Benchmark：全面超越Sonnet 4！

随着 Claude Haiku 4.5 的发布，Anthropic 分享了一整套基准测试结果，将其与 Sonnet 4.5、Sonnet 4、GPT-5 和Gemini 2.5 Pro进行了比较。当你同时考虑速度和成本时，这些数字确实令人印象深刻。

为了提供一些背景信息，以下是 Anthropic 的测试结果以及 Haiku 4.5 的突出之处：

代理编码

Anthropic 使用 SWE-bench Verified 基准测试了其 AI 模型，该基准衡量模型修复 GitHub 存储库中 500 个真实错误的能力。Anthropic 表示，他们计算了 50 次独立运行的结果平均值，以确保结果在统计上可靠。结果显示，Claude Haiku 4.5 的准确率达到了 73.3%，是继 Claude Sonnet 4.5 之后的最高准确率，甚至超过了 Sonnet 4 模型。

计算机使用

在计算机使用测试中，Anthropic 采用了 OSWorld 验证框架。该数据集评估模型执行实际计算机任务（例如打开文件、管理设置以及与网站交互）的效率。Haiku 4.5 再次表现出色，排名略低于 Sonnet 4.5，并优于 Sonnet 4。

视觉推理

Anthropic 使用 MMMU（大规模多学科多模态理解）基准测试了视觉推理能力。该基准衡量模型在多个领域解释和推理文本和图像的能力。结果显示，在 128k 的计算预算下，GPT-5以 84.2% 的准确率领先。Claude Sonnet 4 和 Haiku 4.5 紧随其后，准确率分别为 74.4% 和 73.2%。

总结

Haiku 4.5的发布，不是简单的迭代，而是一次“性能跃迁”。

它让我们看到：轻量模型，也能拥有接近顶级的智能。用三分之一的价格，买到五个月前的“最强模型”体验，还多了电脑操作、扩展思考等高级功能。