【干货收藏】Chain-of-Agents：将专家团队压缩进一个模型，AI智能体的未来

Chain-of-Agents（CoA）是一种创新的大模型范式，通过多智能体蒸馏和强化学习将多智能体协作内化到单一模型中。实验显示，该方法在Web和Code任务上表现优异，计算效率提升84.6%，在多项基准测试中达到SOTA水平。CoA不仅实现了类似多智能体系统的复杂协作能力，还保持了单体模型的高效性，为构建更强大的AI智能体提供了新思路。

编程唐小宝

413人浏览 · 2025-09-24 18:07:32

编程唐小宝 · 2025-09-24 18:07:32 发布

Chain-of-Agents (CoA)是一种新型大模型范式，将多智能体协作"内化"到模型内部，通过多智能体蒸馏和强化学习训练的智能体基础模型(AFM)在多项任务上达到SOTA性能。相比传统方法计算效率提升84.6%，展现出强大的泛化能力。CoA代表了大语言模型智能体研究的重要方向，为构建通用、高效、强大的AI智能体提供了新路径。

论文：Chain-of-Agents: End-to-End Agent Foundation Models via Multi-Agent Distillation and Agentic RL
链接：https://arxiv.org/pdf/2508.13167

本篇论文提出的 Chain-of-Agents (CoA) 范式，旨在取两家之长，弃两家之短。它希望在一个模型内部，原生地、端到地实现复杂问题解决，其能力堪比一个多智能体系统，但其形态和效率却像一个TIR模型。这就像是把一整个专家团队的知识和协作模式，“压缩”进了一个全能型天才的大脑里。论文还详细介绍了如何通过多智能体蒸馏（Multi-Agent Distillation） 和智能体强化学习（Agentic RL） 来训练这种新型的“智能体基础模型（Agent Foundation Models, AFMs）”，并用详实的实验证明了其在多项任务上达到了新的 state-of-the-art (SOTA) 性能。

Chain-of-Agents（CoA）

设计理念：内化的协作

CoA的核心思想非常直观：为什么不把一个多智能体系统的协作过程，看作是模型内部的一种特殊“思维链”呢？ 传统的思维链是“一步一步地想”，而CoA是“一个角色一个角色地切换着去想和做”。

在CoA范式中，给定一个复杂查询（如“总结近期AI重大突破”），模型不会固定地执行“想-搜-读”的循环。相反，它会在内部动态地激活不同的“子模块”或“角色”：

角色扮演智能体（Role-playing Agents）：负责高层次的认知和协调。

思考智能体：总指挥，负责激活其他智能体并保持解题状态的连贯性。
规划智能体：大师，负责将复杂问题分解成有结构的任务序列（如先搜索，再爬取，再分析）。
反思智能体：批评家，负责检查知识的一致性，进行自我批判和修正。
验证智能体：质检员，根据正式标准验证推理过程的完整性。

工具智能体（Tool Agents）：负责执行具体的领域任务。

搜索智能体：搜索引擎高手，负责生成和优化搜索查询。
爬取智能体：网络爬虫，负责从网页中并行提取和解析内容。
代码生成智能体：程序员，负责在安全沙箱中生成和执行代码。

运作机制：动态编排

CoA的整个工作流程可以用一个状态转移方程来抽象地描述：

代表在时间步模型内部的持久推理状态。它可以理解为当前解决问题的“工作记忆”或“上下文”，包含了之前所有的思考、行动结果和观察。
φ 代表在时间步被激活的智能体角色（例如，φ, φ, φ）。
θ 是模型本身（参数为θ），它根据前一状态、前一个角色 φ 的执行结果，来更新当前的状态。
然后，模型再基于当前状态，抽样决定下一个要激活的角色 φ。

这个过程完全在一次模型推理（解码）过程中完成，不同角色间的切换和协作没有额外的通信开销，实现了高效的内化协作。

优势对比：全面领先

上表清晰地对比了CoA与其它范式的优劣。CoA是唯一一个在工具集成、端到端执行、多智能体协作和数据中心优化四个维度上全部获得“✓”的方案。这意味着：

vs. ReAct：CoA支持多智能体协作，而ReAct是单智能体。
vs. 传统MAS：CoA是端到端可训练的，计算效率更高，避免了智能体间冗余的通信。
vs. TIR：CoA支持真正的多智能体协作模式，而TIR仅限于ReAct模式。

如何炼成“智能体基础模型”（AFM）

拥有一个美好的架构蓝图（CoA）只是第一步，如何让一个普通的LLM学会这种复杂的内部协作模式才是真正的挑战。论文提出了一个两阶段的训练框架。

阶段一：智能体监督微调（SFT）—— 模仿专家

目标是让模型“学会”CoA的行为模式。方法是多智能体知识蒸馏。

数据生成：研究者利用当时最先进的开源多智能体系统（如OAgents[82]）作为“教师”，让它们去解决大量的复杂任务（如“在GAIA基准上的问题”）。然后，全程记录下这些“教师团队”的解决轨迹：哪个智能体在什么时候被激活、它看到了什么、它做了什么、输出了什么。
轨迹转换：将这些原始的、分布在多个智能体上的协作轨迹，转换成一条单一的、序列化的“CoA轨迹”。这条轨迹看起来就像是一个模型自己产生的、交替出现思考、工具调用和观察的复杂推理链。
渐进式质量过滤：生成的轨迹质量不一，需要严格筛选。

复杂度过滤：过滤掉交互次数太少（<5次）的简单任务。
质量过滤：用LLM或代码执行等方式验证答案是否正确，去除“脏数据”。
反思 enrichment：优先选择那些包含自我反思、自我修正步骤的高质量轨迹。
错误修正轨迹上采样：特别青睐那些一开始出错但通过反复检查最终做对的轨迹，这能教会模型纠错能力。

经过过滤后，用于SFT的数据集包含约1.6万条高质量轨迹，其推理链长度（5-20步）远超传统基准（2-3步）。

模型的训练目标就是预测CoA轨迹中的每一个token（除了观察结果，因为那是外部环境的信息，不应让模型去学习预测噪声）。

阶段二：智能体强化学习（RL）—— 精益求精

SFT阶段让模型“学会”了行为，RL阶段则要让它“做得更好”。其核心是奖励函数，用来告诉模型什么样的行为是好的。

数据采样：从开源数据集中筛选出那些真正需要工具才能解决的、有挑战性的查询。

Web Agent：先用一个强大的LLM（Qwen-72B）尝试直接回答问题，如果正确率超过30%，说明这个问题可能不需要工具或已被模型记忆，则被过滤掉。剩下的才是RL训练的“硬骨头”。
Code Agent：用一个较小的AFM模型尝试多次解决问题，如果一个题目每次都能被轻松解决，说明它不够难，也会被丢弃。

奖励函数设计：

Web Agent奖励 (R_web) ：结果导向。直接使用LLM-as-a-Judge（让另一个LLM当裁判）来判断最终答案是否正确。正确则奖励为1，否则为0。这种设计简单直接，避免了复杂的奖励塑造可能带来的问题。
Code Agent奖励 (R_code) ：结果+格式。奖励 = score_answer * score_format。score_answer由代码是否通过测试或答案是否正确决定（1或0）。score_format则检查工具调用（如代码块）的格式是否正确（1或0）。这意味着，即使代码逻辑正确，如果格式错误导致无法执行，也得不到奖励。

通过RL优化，模型在SFT“模仿”的基础上，进一步学会了如何更高效、更可靠地协调工具来解决难题。

实验验证

论文在Web和Code两大智能体任务上进行了 exhaustive 的实验，结果真不错。

Web Agent实验

多跳问答（MHQA）：在7个不同的数据集上，AFM模型（无论是SFT还是RL版本）在同等参数规模下，平均性能全面超越了之前的SOTA方法（如Search-R1, ZeroSearch等）。这表明多智能体蒸馏成功地将协作 intelligence 注入了模型。
复杂Web任务（GAIA, BrowseComp, HLE）：这是真正的“硬核”测试。AFM-32B在GAIA上达到了55.3% 的准确率，超越了所有同规模的TIR模型，甚至逼近了使用GPT-4.1作为核心的庞大Agent框架（如OWL, OAgents）的性能。在衡量前沿学术能力的HLE基准上，AFM-32B也取得了18.0% 的优异成绩，显著优于其他对比模型。

特别值得注意的是仅经过SFT的AFM模型（AFM-SFT） 就已经表现非常出色，这强有力地证明了多智能体蒸馏框架本身的有效性，而RL是在此基础上的进一步精炼。

Code Agent实验

数学推理：在AIME、MATH500、AMC等从高中到奥林匹克难度的数学竞赛题上，AFM-7B和AFM-32B都创造了新的SOTA。例如，在最具挑战性的AIME2025上，AFM-32B达到了59.8% 的解决率，相比之前的Best方法（ReTool-32B, 49.3%）实现了10.5% 的绝对提升。
代码生成：在LiveCodeBench和CodeContests等编程竞赛题库上，AFM同样显著领先于仅依赖内部知识的模型和其他的TIR方法。

效率分析

与传统多智能体系统（如OAgents）和TIR方法（如WebThinker）相比，AFM在解决相同任务时，令牌消耗降低了84.6%，并且所需的工具调用次数也更少。这得益于其端到端的内化协作，消除了智能体间大量的通信开销。效率的提升对于实际应用至关重要。

泛化性分析

一个有趣的实验是：将一个只在“代码”任务上训练过的AFM模型，突然赋予它“网页搜索”和“视觉检查”等它从未见过的工具描述，它能否正确使用？

结果是：可以！ 模型能够严格遵循提示词中的格式要求，在第一次尝试中就正确协调使用了这些新工具。这证明了CoA范式强大的零样本泛化能力。反之，一个只在“网页”任务上训练的模型，在面对需要严格代码格式的工具时则表现不佳，这突显了代码训练带来的格式严谨性的优势。

测试时扩展（TTS）分析

测试时扩展（Test-Time Scaling）是指通过多次采样（如多次尝试并选择最佳结果）来提升模型表现。论文发现，AFM模型（AFM-Pass@3）从TTS中获得的性能提升远大于其他模型。例如，在GAIA上，AFM-Pass@3比单次采样（AFM）的性能高出14.6个百分点，而其他模型的提升通常在10个百分点左右。这表明CoA模型具有更高的“潜力上限”，可以通过投入更多计算资源来获得更大幅度的性能提升。

读者福利大放送：如果你对大模型感兴趣，想更加深入的学习大模型**，那么这份精心整理的大模型学习资料，绝对能帮你少走弯路、快速入门**

如果你是零基础小白，别担心——大模型入门真的没那么难，你完全可以学得会！

👉 不用你懂任何算法和数学知识，公式推导、复杂原理这些都不用操心；
👉 也不挑电脑配置，普通家用电脑完全能 hold 住，不用额外花钱升级设备；
👉 更不用你提前学 Python 之类的编程语言，零基础照样能上手。

你要做的特别简单：跟着我的讲解走，照着教程里的步骤一步步操作就行。

包括：大模型学习线路汇总、学习阶段，大模型实战案例，大模型学习视频，人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型！

现在这份资料免费分享给大家，有需要的小伙伴，直接VX扫描下方二维码就能领取啦😝↓↓↓
在这里插入图片描述

为什么要学习大模型？

数据显示，2023 年我国大模型相关人才缺口已突破百万，这一数字直接暴露了人才培养体系的严重滞后与供给不足。而随着人工智能技术的飞速迭代，产业对专业人才的需求将呈爆发式增长，据预测，到 2025 年这一缺口将急剧扩大至 400 万！!
在这里插入图片描述

大模型学习路线汇总

整体的学习路线分成L1到L4四个阶段，一步步带你从入门到进阶，从理论到实战，跟着学习路线一步步打卡，小白也能轻松学会！
在这里插入图片描述

大模型实战项目&配套源码

光学理论可不够，这套学习资料还包含了丰富的实战案例，让你在实战中检验成果巩固所学知识
在这里插入图片描述

大模型学习必看书籍PDF

我精选了一系列大模型技术的书籍和学习文档(电子版)，它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。
在这里插入图片描述

大模型超全面试题汇总

在面试过程中可能遇到的问题，我都给大家汇总好了，能让你们在面试中游刃有余
在这里插入图片描述

这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。
在这里插入图片描述
👉获取方式：