百度文心X1.1深度测评：事实性、指令遵循、智能体三大能力全解析（含获取与接入网址）

百度文心X1.1是2025年9月发布的新一代深度思考模型，在事实性(提升34.8%)、指令遵循(提升12.5%)和智能体能力(提升9.6%)三大核心能力上实现突破。采用"知识一致性验证强化学习"、"指令验证器+任务检查清单"和"思维链+行动链多轮强化学习"三大技术，性能超越同类模型，在中文场景下与国际顶尖模型持平并部分超越。现已开放个人端使用和企业开发者API接入，支持多场景应用。

程序员小猴紫

544人浏览 · 2025-09-11 17:06:42

程序员小猴紫 · 2025-09-11 17:06:42 发布

文心 X1.1 是百度于 2025 年 9 月 9 日发布的深度思考模型，在事实性、指令遵循、智能体三大核心能力上实现显著突破，目前已同步上线个人端与企业开发者端平台，支持多场景快速接入。

一、核心能力与提升

• 事实性

提升 34.8%，创新引入 “知识一致性验证强化学习” 机制，通过预训练知识与生成内容的双向校验，大幅降低模型幻觉与错误陈述，尤其在专业知识问答、数据引用场景表现更可靠。

• 指令遵循

提升 12.5%，新增 “指令验证器 + 任务检查清单” 双模块，即使面对多约束、多步骤的复杂指令（如 “按特定格式整理行业报告并标注数据来源”），也能减少执行偏差，精准匹配用户需求。

• 智能体能力

提升 9.6%，优化 “思维链 + 行动链” 多轮强化学习框架，实现 “规划 - 执行 - 校验” 闭环，在工具调用（如调用 API 获取实时数据）、长程任务（如跨平台流程自动化）中稳定性显著增强。

二、评测与对标

• 官方权威评测显示，文心 X1.1 整体性能超越 DeepSeek R1-0528 模型，尤其在中文知识问答（如传统文化、国内政策解读）、多轮对话连贯性、多语言指令遵循（支持中英日韩等 10 余种语言）、多步骤软推理（如数学建模、逻辑分析）四大任务上表现突出。

• 与国际顶尖模型（GPT-5、Gemini 2.5 Pro）相比，在中文场景下实现功能持平，部分任务（如中文语义理解、国内本地化服务适配）更具优势。

三、训练与关键技术

文心 X1.1 基于文心大模型 4.5 迭代优化，采用 “迭代式混合强化学习框架”，核心技术包含三项突破：

知识一致性验证强化学习

通过动态构建知识图谱，将后训练阶段的生成内容与预训练阶段的海量知识对齐，从源头减少事实性错误。
指令验证器与检查清单强化学习

针对复杂指令，自动拆解任务节点并生成检查清单，每一步执行后对照校验，确保不遗漏关键约束条件。
思维链 + 行动链多轮强化学习

强化“先思考后行动” 的逻辑，在工具调用、任务规划时，先生成清晰的执行路径，再分步落地，同时支持根据中间结果动态调整策略。