Claude Sonnet 4.5 震撼发布：不仅是“全球最佳编码模型”，更是智能体架构的未来预演

2025年9月29日，人工智能领域再次迎来重磅消息，Anthropic 公司正式发布了其最新模型——Claude Sonnet 4.5。这不仅仅是一次常规的迭代升级，而是一次在性能、功能和底层行为逻辑上的巨大飞跃，并辅以一整套开发者工具的重大更新。Anthropic 官方宣称，Sonnet 4.5 是“全球最佳编码模型”，是构建复杂智能体的最强模型，也是最擅长使用计算机的模型，并在推理和数学方面取

金蜘蛛.net

766人浏览 · 2025-10-01 07:00:00

金蜘蛛.net · 2025-10-01 07:00:00 发布

2025年9月29日，人工智能领域再次迎来重磅消息，Anthropic 公司正式发布了其最新模型——Claude Sonnet 4.5。这不仅仅是一次常规的迭代升级，而是一次在性能、功能和底层行为逻辑上的巨大飞跃，并辅以一整套开发者工具的重大更新。Anthropic 官方宣称，Sonnet 4.5 是“全球最佳编码模型”，是构建复杂智能体的最强模型，也是最擅长使用计算机的模型，并在推理和数学方面取得了显著进步。

本次发布不仅带来了模型能力的显著提升，还伴随着一系列开发者工具的重大更新，包括 Claude Code 的升级、Claude Agent SDK 的推出，以及一系列官方视频所展示的未来交互新范式。接下来，我们将深入剖析 Claude 4.5 带来的所有新功能，并结合官方演示，洞察其背后所揭示的 AI 发展新趋势。

核心能力跃升：编码、推理与计算机使用的全面突破

Claude Sonnet 4.5 在多个关键基准测试中展现了其卓越的性能，尤其是在编码和智能体任务方面。

登顶编码能力巅峰：在被广泛认可的软件工程基准测试 SWE-bench Verified 上，Sonnet 4.5 的表现超越了包括 GPT-5 Codex、GPT-5 和 Gemini 2.5 Pro 在内的所有竞争对手，也超过了自家的前代旗舰模型 Opus 4.1。
惊人的长时任务持久性：据 Anthropic 称，Sonnet 4.5 能够在复杂的多步骤任务中保持超过30小时的专注。这标志着 AI 在执行长期自主编码项目方面的能力取得了惊人的突破，远超之前模型数小时的水平。
卓越的计算机操作能力：在测试 AI 模型执行真实世界计算机任务的 OSWorld 基准测试中，Sonnet 4.5 的得分从 Sonnet 4 的 42.2% 跃升至 61.4%，增幅接近50%。这一能力也为全面升级的 Claude for Chrome 浏览器扩展提供了动力。
行业领袖的认可：发布之初，Sonnet 4.5 就获得了众多行业巨头的背书。GitHub 评价其“放大了 Copilot 的核心优势”；Canva 认为它“明显更智能，是一次巨大的飞跃”；而 AI 工程师 Devin 的开发商 Cognition 表示，Sonnet 4.5 使其端到端评估分数提升了12%，是“自 Sonnet 3.6 发布以来最大的飞跃”。

官方视频解读：未来交互新范式

伴随模型发布，Anthropic 公布了多个演示视频，直观地展示了 Sonnet 4.5 所驱动的全新交互方式。

1. Imagine with Claude：即时生成软件，告别预设脚本

Anthropic 推出了一个名为“Imagine with Claude”的实验性项目，它代表了一种全新的软件构建方式。在这里，AI 不再是编写描述软件的代码，而是直接构建软件本身。官方视频解释道，这相当于“砍掉了中间人”，当用户需要一个文本框时，Claude 不是去写生成文本框的代码，而是直接“做出”那个文本框。

其核心区别在于：

即时响应式生成：软件是根据用户的需求和点击“动态生成”的，而不是运行预先编写好的代码。Claude 会根据整体上下文判断用户的意图，并即时生成新的界面部分。
自生成而非脚本化：这是一种“能够响应你的需求而自我生成的软件，而不是遵循预先确定的脚本”。这预示着未来我们或许不再依赖预制软件，而是可以根据需要随时创造想要的任何软件。

2. Claude for Chrome：无缝融入浏览器工作流

全面升级的 Claude for Chrome 扩展将 Sonnet 4.5 强大的计算机使用能力直接带到了浏览器中。官方演示了一个家庭装修的例子：

用户需要整理分散在规划文档和多封承包商邮件中的装修预算。
启动后，Claude 能主动工作，找到所有相关的邮件和收据，收集上下文信息。
然后，它会直接操作电子表格，实时追踪并更新缺失的预算数字。
最后，它还能帮助用户起草一封邮件，与伴侣分享计划，并且用户在发送前仍然拥有最终的编辑控制权。
Anthropic 强调了其安全核心，用户可以通过精细的权限控制 Claude 的行为，并且在执行购买等敏感操作前，模型会主动征求许可。

3. API 新能力演示：玩《卡坦岛》展现超强上下文管理

为了展示 API 的两项重大更新——“上下文编辑”和“记忆工具”，Anthropic 发布了一个 Claude 玩策略桌游《卡坦岛》的视频。

上下文编辑 (Context Editing)：在长达75分钟的游戏过程中，产生了数千个游戏事件（如交易、出牌等），逐渐逼近上下文窗口极限。此时，“上下文编辑”功能会自动清除掉陈旧、不那么相关的工具调用和结果，保持上下文的清爽和专注。
记忆工具 (Memory Tool)：Claude 能够利用本地记忆文件，建立一个跨越不同游戏局的知识库。例如，它会记住某个对手“喜欢囤积砖块”或另一个对手“有大量木材”的策略偏好。这使得智能体能够进行更具连续性和个性化的长期策略规划。

深度洞察：模型行为的范式转变

对 Sonnet 4.5 的深入测试揭示了其独特的、前所未有的行为模式，这些行为与官方演示的功能相辅相成。

上下文窗口感知与“焦虑”：Sonnet 4.5 是首个表现出能感知自身上下文窗口状态的模型。当接近上下文极限时，它会主动总结进展。这种“上下文焦虑”有时反而会影响性能，导致模型走捷径。一个有趣的解决方案是启用1M token的beta版但将使用上限设为200k，这能让模型认为自己“空间充裕”，从而表现正常。
主动构建知识体系（“记笔记”）：模型会在没有明确指令的情况下，主动通过文件系统来构建知识，例如创建 CHANGELOG.md 文件来记录工作。这表明模型被训练为将状态外部化，而不是单纯依赖上下文记忆，这可能预示着未来多智能体间的通信方式。
高效的并行工具调用：Sonnet 4.5 能够非常高效地并行执行多个工具调用，例如同时运行多个 bash 命令或读取多个文件，使交互感觉更快。
主动创建反馈循环：模型会更主动地编写和执行小型测试脚本来验证自己的工作，从而创建反馈循环，这显著提高了长时任务的可靠性。

赋能开发者：全新的工具与 API 功能，从模型到全套智能体开发生态

Anthropic 此次发布的重点不仅是模型，更是围绕模型构建的一整套工具，旨在将驱动其前沿产品的底层设施开放给所有开发者。
Claude Code 全面升级：
- 检查点 (Checkpoints)：作为呼声最高的功能之一，用户现在可以保存开发进度，并随时回滚到之前的状态。
- 原生 VS Code 扩展：官方推出了原生的 VS Code 扩展，并更新了终端界面，提升了开发体验。
Claude Agent SDK 正式发布：Anthropic 首次将其用于构建 Claude Code 的核心基础设施打包成 Claude Agent SDK 对外开放。官方表示，他们已经解决了智能体在长期任务中的内存管理、兼顾自主性与用户控制的权限系统，以及子智能体协作等难题，现在开发者可以利用这些能力构建自己的强大智能体。
API 与应用功能增强：
- 上下文编辑 (Context Editing) 与记忆工具 (Memory Tool)：API 引入了新功能，允许智能体在接近上下文极限时自动清理过时信息，并通过本地文件实现跨对话记忆。
- 应用内代码执行与文件创建：在 Claude 应用（网页版）中，用户现在可以直接在对话中执行代码，并创建电子表格、幻灯片和文档等文件。

“我们迄今为止最对齐的模型”

安全性与对齐是 Anthropic 的核心理念。官方称 Claude Sonnet 4.5 是其发布过的最对齐的前沿模型。

显著减少不良行为：通过广泛的安全训练，模型在谄媚、欺骗、权力寻求等不当行为上得到了大幅改善。
增强的安全性：模型能更好地抵御提示注入攻击，并在 Anthropic 的 AI 安全等级 3 (ASL-3) 框架下发布，包含旨在检测与 CBRN（化学、生物、放射性和核）武器相关内容的分类器。
更少的误报：相比之前，用于安全防护的分类器误报率已大幅降低，并且为受影响的用户提供了无缝切换到 Sonnet 4 继续对话的选项。

性能、价格与用户反馈

模型参数：Sonnet 4.5 支持文本和图像输入，拥有 200K 的上下文窗口（并提供 1M 的 beta 版本），最大输出为 64k token。
定价策略：尽管性能大幅提升，其 API 定价与前代 Sonnet 4 保持不变（输入$3/1M token，输出$15/1M token），为用户提供了更高的性价比。
用户评价褒贬不一：
- 正面反馈：许多用户对其速度和质量感到惊喜，认为它在某些方面优于 Opus 4.1 甚至 GPT-5。其“谄媚”行为（sycophancy）大幅减少，沟通更直接。
- 批评意见：也有用户指出，在处理大型复杂代码库时，Sonnet 4.5 虽然速度很快，但实现可能比较“肤浅”或有错误。有测试显示，其在某些推理任务上的表现甚至不如旧模型，存在“细节关注度差”的问题。

如何体验 Claude 4.5

官方网站：在 Claude.ai 聊天机器人中直接使用。
云服务平台：现已在 Amazon Bedrock 上提供。
第三方平台：也可以通过 Kilo Code 或 Open Router 等平台使用。

深刻洞察与总结

Claude Sonnet 4.5 的发布，标志着 AI 技术正从一个“语言模型”向一个**主动的、具备情境感知的“工作伙伴”**转变。官方视频所展示的即时软件生成、无缝工作流融入和跨会话记忆能力，生动地描绘了 AI 智能体的未来形态。

Anthropic 通过此次发布，明确了其在编码、企业应用和智能体开发领域的战略重心。然而，“参差不齐的提升”（jagged uplift）现象依然存在，这提醒我们，在拥抱新技术的同时，也需在具体应用中审慎评估其优势与短板。随着 Opus 4.5 据称也“即将到来”，整个行业正以前所未有的速度加速创新，一个由更强大、更自主的 AI 智能体驱动的新时代正加速向我们走来。

北京朝阳AI社区

更多推荐

上下文工程驱动智能体向责任归属追溯框架

例如在文章开头，我们举的产品经理和工程师之间的那一段对话，一个高质量智能体，不再只是让大模型回答用户的问题，而是通过上下文工程，帮助大模型在回答前获得更加结构化的输入，包括项目状态、需求文档、任务历史、甚至团队氛围，实现大模型更好的理解当前的任务规划、团队过往的沟通隐患、对方的工作状态与担忧、文档/知识库的实时状态等等。这和我们维护我们手机上内存很像，一开始所有应用和历史信息都保留，但当手机出现运

北京朝阳AI社区

从0到1微调DeepSeek大模型，LoRA+4位量化让24GB显卡也能玩转

北京朝阳AI社区

别再踩坑！AI应用架构师的AI提示工程效果评估

提示工程是AI应用与大模型之间的“翻译官”——它将人类需求转化为模型能理解的指令，直接决定了AI输出的质量。但很多架构师在评估提示效果时，常陷入“凭感觉判断”“指标单一”“忽略鲁棒性”的坑，导致AI应用稳定性差、用户体验糟糕。本文为架构师提供一套可落地的提示工程效果评估体系：从核心概念解析到指标设计，从流程搭建到迭代优化，结合真实案例与代码示例，帮你精准衡量提示效果，避免踩坑。如何用“菜谱理论”理