Claude Opus 4.6 加冕编程王者,强势入局 Office 全系列!
Claude Opus 4.6 在海量文档的相关信息检索上表现更优,该能力亦延伸至长上下文任务中,可在数十万 Token 范围内稳定保存并追踪信息,上下文漂移现象显著减少,还能捕捉到此前 Opus 4.5 未能识别的深层细节。此外,Claude Opus 4.6 为首款支持 100 万 Token 上下文的 Opus 级模型,针对超过 200k Token 的提示词,将按高级费率计费,即输入与输出
霸榜编程界!Claude Opus 4.6 成新晋王者,跨界杀入 Office 全家桶!
Anthropic 于深夜发布重磅成果,推出新一代 Claude Opus 4.6 模型,该模型凭借卓越性能登顶全球编程类 AI 榜首,实现技术层面的全面领先。相较于上一代 Claude Opus 4.5,其编码能力得到显著优化与提升。

Claude Opus 4.6 的任务规划逻辑更为缜密,对 AI Agent 任务的执行具备更强的持续性,在超大规模代码库环境中运行的可靠性亦得到提升;其核心优势在于自我纠错能力的强化,可实现精准的代码审查与调试。该模型同时也是 Anthropic 首款在 beta 测试阶段,上下文窗口支持 100 万 token 的 Opus 级模型。
在多项基准测试场景下,Claude Opus 4.6 的编程性能实现近乎全维度领先,显著优于 Gemini 3 Pro、GPT-5.2 等同类模型。


Opus 4.6上线,开始革命办公!
该模型同步上线于 Excel、PPT 端 Claude 应用及 Claude Code、API 平台。比如面对多季度奥运长跑鞋供应链数据与预测值不符、数据难以快速核查的场景,Claude Opus 4.6 可实现文件夹下 Excel 表格的全域遍历,精准定位数据偏差点,并同步生成折线图可视化呈现。
Claude Opus 4.6 已于今日正式开放 Claude 网页端、开发者平台及多平台的实操访问,其技术落地也让硅谷的行业竞争态势进一步加剧。
Opus 4.6发布后没几分钟,OpenAI紧急掏出GPT-5.3-Codex。


编程新王深夜炸场,革命全球打工人!
Claude Opus 4.6 的正式发布,成为 Anthropic 发展进程中的重要转折点。该团队负责人 Alex Albert 表示,Claude 于 2025 年实现了编程领域的革新,还将在 2026 年对知识型工作模式完成深度重构。
Claude Opus 4.6 并非单纯的模型迭代,而是 AI 成为人类职场协作伙伴的关键节点,尤其适用于高频处理表格、PPT 与长文档的工作场景,这类工作亦是金融、咨询等核心产业的重要支撑。在金融真实任务实测中,Opus 4.6 的表现较数月前行业领先的 Sonnet 4.5 提升超 23%;在 AI 技术快速迭代的当下,数月的技术差距已形成显著代际差异。此次测试均为金融领域实操任务,涵盖财务模型搭建、路演 PPT 制作、并购分析等,此前分析师需数周完成的工作,依托该模型可实现高效完成。
Claude Opus 4.6 可作为日常工作的高效支撑工具,能够被调用完成财务分析、深度研究及 Word、Excel、PPT 的使用与创建等工作。据不完全统计,全球约有 15 亿用户依托 Office 办公套件开展工作,该模型的落地正推动办公效率的深层变革。此外,在 Claude Cowork 平台中,Opus 4.6 可直接执行上述各类复杂办公任务,成为高效的工作辅助载体。
Claude Opus 4.6 的输出质量实现质的提升,相较前代模型,其首次输出结果的可用性显著提高,大幅减少反复修改的需求甚至可直接落地应用。Claude Cowork 支持文件夹级别的多任务同步分析,Excel 端的 Claude 可高效处理多表格财务模型且保持任务执行的精准性,PowerPoint 端的 Claude 则支持在软件内直接完成内容的生成与修改。如同 AI 技术降低了开发领域的准入门槛,该模型也将重构知识工作者的能力边界,行业生产力的范式变革已蓄势待发,相关变革进程才刚刚启动。
全面碾压Gemini3、GPT5.2,SOTA拿到手软
生产力范式实现转型的核心前提,是拥有全维度性能优异的模型,Claude Opus 4.6 已达成这一要求。该模型在多项评估中均取得当前最优性能(SOTA),其中在智能体编程评估 Terminal-Bench 2.0 中斩获 65.4 的高分,在 HLE 测试中则表现领先于其他前沿模型。

核心优势体现在 GDPval-AA 知识工作性能评估中,Claude Opus 4.6 的 Elo 得分表现突出,较 GPT-5.2 高出约 144 分,较上一代 Opus 4.5 提升 190 分。
此外,在智能体搜索 BrowseComp 基准测试中,Claude Opus 4.6 的表现显著优于所有同类模型。
从多维度基准测试结果来看,Claude Opus 4.6 在智能体编程、计算机应用、工具使用、信息检索及金融领域均处于行业领先地位,且优势显著;在智能体工具使用的 t2-bench 测试中,该模型取得近乎满分的表现,其中零售领域得分 91.9%,电信领域达 99.3%。
Claude Opus 4.6 在海量文档的相关信息检索上表现更优,该能力亦延伸至长上下文任务中,可在数十万 Token 范围内稳定保存并追踪信息,上下文漂移现象显著减少,还能捕捉到此前 Opus 4.5 未能识别的深层细节。上下文衰减是 AI 模型的常见问题,即对话 Token 量超出阈值后模型性能会下降,而 Opus 4.6 在该方面的表现显著优于前代;在 MRCR v2 的 8-needle 1M 变体这一海量信息检索基准测试中,其得分达 76%,而 Sonnet 4.5 仅为 18.5%。

这标志着该模型在维持峰值性能的同时,实现了实际可用上下文规模的质的突破。总体而言,Claude Opus 4.6 在长上下文信息检索、信息吸收后的推理环节表现更优,且整体具备显著提升的专家级推理能力。相关图表展示了该模型在多项基准测试中的性能表现,这些测试涵盖软件工程、多语言编程、长期一致性、网络安全及生命科学知识等维度的能力评估。




Claude Code「智能体群」登场,一人指挥AI大军
值得关注的是,Claude Opus 4.6 已深度集成至 Claude Code 平台,开发者可在该平台搭建智能体团队开展任务协同工作,即当前备受关注的智能体群技术。
相较于此前单智能体按序执行任务的模式,Claude Opus 4.6 支持主智能体向多智能体分配任务,各智能体可并行完成调研、调试、开发等工作,并实现实时协作沟通。这一特性使开发者能够依托智能体集群开展开发工作,仅通过自然语言描述开发需求,即可完成软件的生成。
砸2万美金,16个Claude组团写10万行C编译器
Anthropic 已完成相关实践,依托 Opus 4.6 智能体群开发 C 编译器,全程仅由人类进行少量干预,该编译器在两周后成功在 Linux 内核中实现运行。
实验阶段,研究团队部署 16 个 Claude Opus 4.6 智能体,在无人工干预的条件下并行协作完成代码开发;为验证系统性能上限,研究人员为该智能体集群设定高难度开发任务 —— 基于 Rust 语言从零开发一款可编译 Linux 内核的 C 编译器。
加入百万token上下文革命
在 API 层面,Claude 可通过上下文压缩技术对上下文信息进行提炼,从而在阈值范围内执行长时任务。研发团队还为其引入自适应思考机制,模型可依据上下文线索自主判断是否启用扩展思考模式;同时新增思考力度控制功能,让开发者能够更灵活地权衡模型的智能表现、运行速度与使用成本。在 API 定价上,Claude Opus 4.6 的输入单价为 5 美元 / 百万 token,输出单价为 25 美元 / 百万 token。
此外,Claude Opus 4.6 为首款支持 100 万 Token 上下文的 Opus 级模型,针对超过 200k Token 的提示词,将按高级费率计费,即输入与输出单价分别为 10 美元 / 百万 Token、37.5 美元 / 百万 Token。
Anthropic 负责人 Alex Albert 对 Claude Opus 4.6 的发布作出总结:2025 年成为 AI 编程的普及元年,2026 年 AI 则将在编程领域之外实现全领域的规模化应用。
更多推荐



所有评论(0)