霸榜编程界!Claude Opus 4.6 成新晋王者,跨界杀入 Office 全家桶!

Anthropic 于深夜发布重磅成果,推出新一代 Claude Opus 4.6 模型,该模型凭借卓越性能登顶全球编程类 AI 榜首,实现技术层面的全面领先。相较于上一代 Claude Opus 4.5,其编码能力得到显著优化与提升。在这里插入图片描述
在这里插入图片描述

Claude Opus 4.6 的任务规划逻辑更为缜密,对 AI Agent 任务的执行具备更强的持续性,在超大规模代码库环境中运行的可靠性亦得到提升;其核心优势在于自我纠错能力的强化,可实现精准的代码审查与调试。该模型同时也是 Anthropic 首款在 beta 测试阶段,上下文窗口支持 100 万 token 的 Opus 级模型。

在多项基准测试场景下,Claude Opus 4.6 的编程性能实现近乎全维度领先,显著优于 Gemini 3 Pro、GPT-5.2 等同类模型。在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Opus 4.6上线,开始革命办公!
该模型同步上线于 Excel、PPT 端 Claude 应用及 Claude Code、API 平台。比如面对多季度奥运长跑鞋供应链数据与预测值不符、数据难以快速核查的场景,Claude Opus 4.6 可实现文件夹下 Excel 表格的全域遍历,精准定位数据偏差点,并同步生成折线图可视化呈现。
在这里插入图片描述

Claude Opus 4.6 已于今日正式开放 Claude 网页端、开发者平台及多平台的实操访问,其技术落地也让硅谷的行业竞争态势进一步加剧。

Opus 4.6发布后没几分钟,OpenAI紧急掏出GPT-5.3-Codex。在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

编程新王深夜炸场,革命全球打工人!
Claude Opus 4.6 的正式发布,成为 Anthropic 发展进程中的重要转折点。该团队负责人 Alex Albert 表示,Claude 于 2025 年实现了编程领域的革新,还将在 2026 年对知识型工作模式完成深度重构。
在这里插入图片描述

Claude Opus 4.6 并非单纯的模型迭代,而是 AI 成为人类职场协作伙伴的关键节点,尤其适用于高频处理表格、PPT 与长文档的工作场景,这类工作亦是金融、咨询等核心产业的重要支撑。在金融真实任务实测中,Opus 4.6 的表现较数月前行业领先的 Sonnet 4.5 提升超 23%;在 AI 技术快速迭代的当下,数月的技术差距已形成显著代际差异。此次测试均为金融领域实操任务,涵盖财务模型搭建、路演 PPT 制作、并购分析等,此前分析师需数周完成的工作,依托该模型可实现高效完成。

Claude Opus 4.6 可作为日常工作的高效支撑工具,能够被调用完成财务分析、深度研究及 Word、Excel、PPT 的使用与创建等工作。据不完全统计,全球约有 15 亿用户依托 Office 办公套件开展工作,该模型的落地正推动办公效率的深层变革。此外,在 Claude Cowork 平台中,Opus 4.6 可直接执行上述各类复杂办公任务,成为高效的工作辅助载体

Claude Opus 4.6 的输出质量实现质的提升,相较前代模型,其首次输出结果的可用性显著提高,大幅减少反复修改的需求甚至可直接落地应用。Claude Cowork 支持文件夹级别的多任务同步分析,Excel 端的 Claude 可高效处理多表格财务模型且保持任务执行的精准性,PowerPoint 端的 Claude 则支持在软件内直接完成内容的生成与修改。如同 AI 技术降低了开发领域的准入门槛,该模型也将重构知识工作者的能力边界,行业生产力的范式变革已蓄势待发,相关变革进程才刚刚启动。在这里插入图片描述

全面碾压Gemini3、GPT5.2,SOTA拿到手软
生产力范式实现转型的核心前提,是拥有全维度性能优异的模型,Claude Opus 4.6 已达成这一要求。该模型在多项评估中均取得当前最优性能(SOTA),其中在智能体编程评估 Terminal-Bench 2.0 中斩获 65.4 的高分,在 HLE 测试中则表现领先于其他前沿模型。
在这里插入图片描述
在这里插入图片描述

核心优势体现在 GDPval-AA 知识工作性能评估中,Claude Opus 4.6 的 Elo 得分表现突出,较 GPT-5.2 高出约 144 分,较上一代 Opus 4.5 提升 190 分。在这里插入图片描述

此外,在智能体搜索 BrowseComp 基准测试中,Claude Opus 4.6 的表现显著优于所有同类模型。在这里插入图片描述

多维度基准测试结果来看,Claude Opus 4.6 在智能体编程、计算机应用、工具使用、信息检索及金融领域均处于行业领先地位,且优势显著;在智能体工具使用的 t2-bench 测试中,该模型取得近乎满分的表现,其中零售领域得分 91.9%,电信领域达 99.3%。在这里插入图片描述

Claude Opus 4.6 在海量文档的相关信息检索上表现更优,该能力亦延伸至长上下文任务中,可在数十万 Token 范围内稳定保存并追踪信息,上下文漂移现象显著减少,还能捕捉到此前 Opus 4.5 未能识别的深层细节。上下文衰减是 AI 模型的常见问题,即对话 Token 量超出阈值后模型性能会下降,而 Opus 4.6 在该方面的表现显著优于前代;在 MRCR v2 的 8-needle 1M 变体这一海量信息检索基准测试中,其得分达 76%,而 Sonnet 4.5 仅为 18.5%在这里插入图片描述
在这里插入图片描述

这标志着该模型在维持峰值性能的同时,实现了实际可用上下文规模的质的突破。总体而言,Claude Opus 4.6 在长上下文信息检索、信息吸收后的推理环节表现更优,且整体具备显著提升的专家级推理能力。相关图表展示了该模型在多项基准测试中的性能表现,这些测试涵盖软件工程、多语言编程、长期一致性、网络安全及生命科学知识等维度的能力评估。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Claude Code「智能体群」登场,一人指挥AI大军
值得关注的是,Claude Opus 4.6 已深度集成至 Claude Code 平台,开发者可在该平台搭建智能体团队开展任务协同工作,即当前备受关注的智能体群技术。
在这里插入图片描述

相较于此前单智能体按序执行任务的模式,Claude Opus 4.6 支持主智能体向多智能体分配任务,各智能体可并行完成调研、调试、开发等工作,并实现实时协作沟通。这一特性使开发者能够依托智能体集群开展开发工作,仅通过自然语言描述开发需求,即可完成软件的生成。在这里插入图片描述

砸2万美金,16个Claude组团写10万行C编译器
Anthropic 已完成相关实践,依托 Opus 4.6 智能体群开发 C 编译器,全程仅由人类进行少量干预,该编译器在两周后成功在 Linux 内核中实现运行。在这里插入图片描述

实验阶段,研究团队部署 16 个 Claude Opus 4.6 智能体,在无人工干预的条件下并行协作完成代码开发;为验证系统性能上限,研究人员为该智能体集群设定高难度开发任务 —— 基于 Rust 语言从零开发一款可编译 Linux 内核的 C 编译器。

加入百万token上下文革命
API 层面,Claude 可通过上下文压缩技术对上下文信息进行提炼,从而在阈值范围内执行长时任务。研发团队还为其引入自适应思考机制,模型可依据上下文线索自主判断是否启用扩展思考模式;同时新增思考力度控制功能,让开发者能够更灵活地权衡模型的智能表现、运行速度与使用成本。在 API 定价上,Claude Opus 4.6 的输入单价为 5 美元 / 百万 token,输出单价为 25 美元 / 百万 token。在这里插入图片描述

此外,Claude Opus 4.6 为首款支持 100 万 Token 上下文的 Opus 级模型,针对超过 200k Token 的提示词,将按高级费率计费,即输入与输出单价分别为 10 美元 / 百万 Token、37.5 美元 / 百万 Token。

Anthropic 负责人 Alex Albert 对 Claude Opus 4.6 的发布作出总结:2025 年成为 AI 编程的普及元年,2026 年 AI 则将在编程领域之外实现全领域的规模化应用。

Logo

中科创新烁智(CSCITech)

更多推荐