2026年2月,当人们还沉浸在中国农历新年(丙午马年)的节日氛围中时,人工智能领域再次迎来一枚“重磅炸弹”。硅谷明星公司Anthropic于2月17日(当地时间)深夜,正式发布了其Claude Sonnet模型系列的最新版本——Sonnet 4.6。这次更新远非一次常规迭代,而是一次在性能、功能与市场定位上均带来显著冲击的“全面升级”,其部分能力甚至直逼乃至超越了自家的顶级旗舰模型Opus 4.6,从而在资本市场和行业内部引发了连锁反应。

一、Sonn4.6简介

核心性能深度剖析:从“类人操作”到“专业工作”的全面跨越Sonnet 4.6的宣传核心是“全方位升级”,其提升覆盖了编程、计算机使用、长上下文推理、智能体规划、知识工作和设计六大关键领域。

1.“类人”的计算机使用能力:这是本次升级最引人瞩目的亮点。在衡量AI操作真实桌面软件(如Chrome浏览器、LibreOffice、VS Code等)的行业基准测试OSWorld-Verified中,Sonnet 4.6取得了72.5% 的优异成绩,较前代Sonnet 4.5的61.4%实现了大幅跃升。这意味着该模型能够通过观察屏幕像素和模拟鼠标键盘操作,像真人一样处理复杂的电子表格、填写多步骤的网页表单,并在不同浏览器标签页之间整合信息。早期用户反馈证实,在处理诸如设置网店促销规则、修改网页样式并进行跨端测试、自动化报销流程等一连串实际办公任务时,Sonnet 4.6已展现出接近人类水平的可靠性与效率。

2.基准测试的全面对比:根据官方发布的综合性能对比表格,Sonnet 4.6在与同系及竞品模型的对比中表现强势:

3.办公室任务:在GDPval-AA测试(模拟真实办公场景如文档处理、报告撰写)中,Sonnet 4.6的Elo评分高达1633,不仅远超Gemini 3 Pro(1201)和GPT-5.2(1462),甚至略微超过了“老大哥”Opus 4.6的1606分。

4.智能体财务分析:在Finance Agent v1.1测试中,Sonnet 4.6以63.3% 的准确率同样超过了Opus 4.6的60.1%。

5.大规模工具调用:在MCP-Atlas测试中,Sonnet 4.6(61.3%)也优于Opus 4.6(59.5%),显示出其协调多个外部工具和API的强大调度能力。

6.与竞品对比:在多项测试中,Sonnet 4.6几乎全面击败了谷歌的Gemini 3 Pro和OpenAI的GPT-5.2,例如在智能体编码(SWE-bench Verified,79.6%)和智能体搜索(BrowseComp,74.7%)等方面均保持领先。

7.百万级上下文与深度推理:该模型支持高达100万token的上下文窗口(测试版),使其能够一次性吞下整个代码库、超长合同或数十篇研究论文。更重要的是,在消化如此海量信息后,其推理能力并未衰减。在考验长期战略规划的Vending-Bench Arena模拟测试中,Sonnet 4.6展现出了独特的策略:在前期阶段大量投资扩大产能,而在后期阶段则精准转向利润最大化,这种灵活的长期规划能力令人印象深刻。

二、Sonnet4.6影响力

AI效率革命冲击传统软件壁垒Sonnet 4.6的发布立即在金融市场产生了“冲击波”。由于其强大的“计算机使用”和“知识工作”能力,市场普遍担忧这种能够直接操作各种软件、替代大量白领重复性工作的AI智能体,将侵蚀传统企业软件公司的业务护城河。发布次日(2月17日),多家全球领先的软件公司股价应声下跌。

  • Intuit(财税软件巨头):暴跌5.07%

  • 甲骨文(数据库与云服务商):下跌3.80%

  • Salesforce(客户关系管理软件龙头):下跌2.86%

  • Adobe(创意与文档软件公司):下跌1.33%

  • Thomson Reuters(金融信息与软件服务商):下跌3.52%

这一市场反应清晰地传达出一个信号:AI,特别是能够理解并操作复杂界面的智能体,正从“辅助工具”演变为“替代性生产力”,直接挑战现有软件服务的价值构成。三、 开发者体验与关键功能更新。

三、体验与关键功能更新

开发者体验与关键功能更新来自开发社区的早期测试反馈极为积极。在Claude Code的测试中,约70%的开发者表示更偏好Sonnet 4.6而非Sonnet 4.5,甚至59%的测试者认为其表现优于去年11月发布的顶尖模型Opus 4.5。开发者称赞其在修改代码时能更精准地理解上下文、减少无意义的代码重复、更好地整合共享逻辑,并且在处理复杂多步骤任务时更加稳定可靠,“过度设计”和“幻觉”问题有所减少。本次更新还包含了一系列重要功能升级:

  • 自适应与扩展思考模式:为开发者提供了两种不同的思考强度模式,以适应不同复杂度的任务需求。

  • 上下文压缩:一项新的测试功能。当对话长度接近上限时,模型会自动总结之前的旧内容,从而“变相”延长了有效上下文长度,提升了长对话的实用性。

  • 增强的联网搜索:其网络搜索和抓取工具现在能够先自动编写并执行代码来过滤和提炼搜索结果,仅将最有用的信息带回对话上下文。这不仅将搜索任务的准确率提升了13%,同时还节省了32% 的输入token消耗。

  • Excel专业集成:Excel版Claude现在支持“MCP连接器”,用户无需离开Excel,即可直接在表格中调用如S&P Global、LSEG、PitchBook、Moody‘s等专业金融数据源的工具,实现无缝的数据分析与处理。

四、定价与可用性

Sonnet 4.6已同步在Claude官网、Claude Code、API以及Claude桌面应用等全平台上线。其定价策略保持亲民,与Sonnet 4.5持平,为输入每百万token 3美元,输出每百万token 15美元。目前,它已成为Claude Pro和Team套餐的默认模型。

结论

Claude Sonnet 4.6的发布,标志着高性能通用人工智能的能力正以惊人的速度“下沉”和“普及”。它不再仅仅是实验室中的基准测试冠军,更是能够直接嵌入实际工作流、大幅提升各类知识工作者效率的生产力引擎。Anthropic通过让“中杯”模型承载起以往需要“超大杯”模型才能胜任的诸多任务,不仅为用户提供了更具性价比的选择,也进一步加剧了AI对传统工作模式和软件行业的渗透与重塑。这场由“中杯逆袭”所引发的效率革命,才刚刚拉开序幕。

ALL IN ONE 通用智能(AGI)服务

行业领先的AI服务供应商

探索智能边界

发现无限可能

Logo

中科创新烁智(CSCITech)

更多推荐