Claude Sonnet 4.5 震撼发布:不仅是“全球最佳编码模型”,更是智能体架构的未来预演
2025年9月29日,人工智能领域再次迎来重磅消息,Anthropic 公司正式发布了其最新模型——Claude Sonnet 4.5。这不仅仅是一次常规的迭代升级,而是一次在性能、功能和底层行为逻辑上的巨大飞跃,并辅以一整套开发者工具的重大更新。Anthropic 官方宣称,Sonnet 4.5 是“全球最佳编码模型”,是构建复杂智能体的最强模型,也是最擅长使用计算机的模型,并在推理和数学方面取
2025年9月29日,人工智能领域再次迎来重磅消息,Anthropic 公司正式发布了其最新模型——Claude Sonnet 4.5。这不仅仅是一次常规的迭代升级,而是一次在性能、功能和底层行为逻辑上的巨大飞跃,并辅以一整套开发者工具的重大更新。Anthropic 官方宣称,Sonnet 4.5 是“全球最佳编码模型”,是构建复杂智能体的最强模型,也是最擅长使用计算机的模型,并在推理和数学方面取得了显著进步。
本次发布不仅带来了模型能力的显著提升,还伴随着一系列开发者工具的重大更新,包括 Claude Code 的升级、Claude Agent SDK 的推出,以及一系列官方视频所展示的未来交互新范式。接下来,我们将深入剖析 Claude 4.5 带来的所有新功能,并结合官方演示,洞察其背后所揭示的 AI 发展新趋势。
核心能力跃升:编码、推理与计算机使用的全面突破
Claude Sonnet 4.5 在多个关键基准测试中展现了其卓越的性能,尤其是在编码和智能体任务方面。
-
登顶编码能力巅峰:在被广泛认可的软件工程基准测试 SWE-bench Verified 上,Sonnet 4.5 的表现超越了包括 GPT-5 Codex、GPT-5 和 Gemini 2.5 Pro 在内的所有竞争对手,也超过了自家的前代旗舰模型 Opus 4.1。
-
惊人的长时任务持久性:据 Anthropic 称,Sonnet 4.5 能够在复杂的多步骤任务中保持超过30小时的专注。这标志着 AI 在执行长期自主编码项目方面的能力取得了惊人的突破,远超之前模型数小时的水平。
-
卓越的计算机操作能力:在测试 AI 模型执行真实世界计算机任务的 OSWorld 基准测试中,Sonnet 4.5 的得分从 Sonnet 4 的 42.2% 跃升至 61.4%,增幅接近50%。这一能力也为全面升级的 Claude for Chrome 浏览器扩展提供了动力。
-
行业领袖的认可:发布之初,Sonnet 4.5 就获得了众多行业巨头的背书。GitHub 评价其“放大了 Copilot 的核心优势”;Canva 认为它“明显更智能,是一次巨大的飞跃”;而 AI 工程师 Devin 的开发商 Cognition 表示,Sonnet 4.5 使其端到端评估分数提升了12%,是“自 Sonnet 3.6 发布以来最大的飞跃”。
官方视频解读:未来交互新范式
伴随模型发布,Anthropic 公布了多个演示视频,直观地展示了 Sonnet 4.5 所驱动的全新交互方式。
1. Imagine with Claude:即时生成软件,告别预设脚本
Anthropic 推出了一个名为“Imagine with Claude”的实验性项目,它代表了一种全新的软件构建方式。在这里,AI 不再是编写描述软件的代码,而是直接构建软件本身。官方视频解释道,这相当于“砍掉了中间人”,当用户需要一个文本框时,Claude 不是去写生成文本框的代码,而是直接“做出”那个文本框。
其核心区别在于:
-
即时响应式生成:软件是根据用户的需求和点击“动态生成”的,而不是运行预先编写好的代码。Claude 会根据整体上下文判断用户的意图,并即时生成新的界面部分。
-
自生成而非脚本化:这是一种“能够响应你的需求而自我生成的软件,而不是遵循预先确定的脚本”。这预示着未来我们或许不再依赖预制软件,而是可以根据需要随时创造想要的任何软件。
2. Claude for Chrome:无缝融入浏览器工作流
全面升级的 Claude for Chrome 扩展将 Sonnet 4.5 强大的计算机使用能力直接带到了浏览器中。官方演示了一个家庭装修的例子:
- 用户需要整理分散在规划文档和多封承包商邮件中的装修预算。
- 启动后,Claude 能主动工作,找到所有相关的邮件和收据,收集上下文信息。
- 然后,它会直接操作电子表格,实时追踪并更新缺失的预算数字。
- 最后,它还能帮助用户起草一封邮件,与伴侣分享计划,并且用户在发送前仍然拥有最终的编辑控制权。
- Anthropic 强调了其安全核心,用户可以通过精细的权限控制 Claude 的行为,并且在执行购买等敏感操作前,模型会主动征求许可。
3. API 新能力演示:玩《卡坦岛》展现超强上下文管理
为了展示 API 的两项重大更新——“上下文编辑”和“记忆工具”,Anthropic 发布了一个 Claude 玩策略桌游《卡坦岛》的视频。
- 上下文编辑 (Context Editing):在长达75分钟的游戏过程中,产生了数千个游戏事件(如交易、出牌等),逐渐逼近上下文窗口极限。此时,“上下文编辑”功能会自动清除掉陈旧、不那么相关的工具调用和结果,保持上下文的清爽和专注。
- 记忆工具 (Memory Tool):Claude 能够利用本地记忆文件,建立一个跨越不同游戏局的知识库。例如,它会记住某个对手“喜欢囤积砖块”或另一个对手“有大量木材”的策略偏好。这使得智能体能够进行更具连续性和个性化的长期策略规划。
深度洞察:模型行为的范式转变
对 Sonnet 4.5 的深入测试揭示了其独特的、前所未有的行为模式,这些行为与官方演示的功能相辅相成。
-
上下文窗口感知与“焦虑”:Sonnet 4.5 是首个表现出能感知自身上下文窗口状态的模型。当接近上下文极限时,它会主动总结进展。这种“上下文焦虑”有时反而会影响性能,导致模型走捷径。一个有趣的解决方案是启用1M token的beta版但将使用上限设为200k,这能让模型认为自己“空间充裕”,从而表现正常。
-
主动构建知识体系(“记笔记”):模型会在没有明确指令的情况下,主动通过文件系统来构建知识,例如创建
CHANGELOG.md
文件来记录工作。这表明模型被训练为将状态外部化,而不是单纯依赖上下文记忆,这可能预示着未来多智能体间的通信方式。 -
高效的并行工具调用:Sonnet 4.5 能够非常高效地并行执行多个工具调用,例如同时运行多个 bash 命令或读取多个文件,使交互感觉更快。
-
主动创建反馈循环:模型会更主动地编写和执行小型测试脚本来验证自己的工作,从而创建反馈循环,这显著提高了长时任务的可靠性。
赋能开发者:全新的工具与 API 功能,从模型到全套智能体开发生态
-
Anthropic 此次发布的重点不仅是模型,更是围绕模型构建的一整套工具,旨在将驱动其前沿产品的底层设施开放给所有开发者。
- Claude Code 全面升级:
- 检查点 (Checkpoints):作为呼声最高的功能之一,用户现在可以保存开发进度,并随时回滚到之前的状态。
- 原生 VS Code 扩展:官方推出了原生的 VS Code 扩展,并更新了终端界面,提升了开发体验。
- Claude Agent SDK 正式发布:Anthropic 首次将其用于构建 Claude Code 的核心基础设施打包成 Claude Agent SDK 对外开放。官方表示,他们已经解决了智能体在长期任务中的内存管理、兼顾自主性与用户控制的权限系统,以及子智能体协作等难题,现在开发者可以利用这些能力构建自己的强大智能体。
- API 与应用功能增强:
- 上下文编辑 (Context Editing) 与记忆工具 (Memory Tool):API 引入了新功能,允许智能体在接近上下文极限时自动清理过时信息,并通过本地文件实现跨对话记忆。
- 应用内代码执行与文件创建:在 Claude 应用(网页版)中,用户现在可以直接在对话中执行代码,并创建电子表格、幻灯片和文档等文件。
“我们迄今为止最对齐的模型”
安全性与对齐是 Anthropic 的核心理念。官方称 Claude Sonnet 4.5 是其发布过的最对齐的前沿模型。
- 显著减少不良行为:通过广泛的安全训练,模型在谄媚、欺骗、权力寻求等不当行为上得到了大幅改善。
- 增强的安全性:模型能更好地抵御提示注入攻击,并在 Anthropic 的 AI 安全等级 3 (ASL-3) 框架下发布,包含旨在检测与 CBRN(化学、生物、放射性和核)武器相关内容的分类器。
- 更少的误报:相比之前,用于安全防护的分类器误报率已大幅降低,并且为受影响的用户提供了无缝切换到 Sonnet 4 继续对话的选项。
性能、价格与用户反馈
- 模型参数:Sonnet 4.5 支持文本和图像输入,拥有 200K 的上下文窗口(并提供 1M 的 beta 版本),最大输出为 64k token。
- 定价策略:尽管性能大幅提升,其 API 定价与前代 Sonnet 4 保持不变(输入$3/1M token,输出$15/1M token),为用户提供了更高的性价比。
- 用户评价褒贬不一:
- 正面反馈:许多用户对其速度和质量感到惊喜,认为它在某些方面优于 Opus 4.1 甚至 GPT-5。其“谄媚”行为(sycophancy)大幅减少,沟通更直接。
- 批评意见:也有用户指出,在处理大型复杂代码库时,Sonnet 4.5 虽然速度很快,但实现可能比较“肤浅”或有错误。有测试显示,其在某些推理任务上的表现甚至不如旧模型,存在“细节关注度差”的问题。
如何体验 Claude 4.5
- 官方网站:在 Claude.ai 聊天机器人中直接使用。
- 云服务平台:现已在 Amazon Bedrock 上提供。
- 第三方平台:也可以通过 Kilo Code 或 Open Router 等平台使用。
深刻洞察与总结
Claude Sonnet 4.5 的发布,标志着 AI 技术正从一个“语言模型”向一个**主动的、具备情境感知的“工作伙伴”**转变。官方视频所展示的即时软件生成、无缝工作流融入和跨会话记忆能力,生动地描绘了 AI 智能体的未来形态。
Anthropic 通过此次发布,明确了其在编码、企业应用和智能体开发领域的战略重心。然而,“参差不齐的提升”(jagged uplift)现象依然存在,这提醒我们,在拥抱新技术的同时,也需在具体应用中审慎评估其优势与短板。随着 Opus 4.5 据称也“即将到来”,整个行业正以前所未有的速度加速创新,一个由更强大、更自主的 AI 智能体驱动的新时代正加速向我们走来。
更多推荐
所有评论(0)