26年3月来自如下UIUC等单位的论文“Adaptation of Agentic AI: A Survey of Post-Training, Memory, and Skills”。
请添加图片描述

大语言模型(LLM)智体正迈向超越单纯“提示工程”的更高阶段。ChatGPT 标志着通用型 LLM 助手的崛起;DeepSeek 证明,结合可验证奖励的策略内强化学习能够提升模型的推理能力与工具使用效能;而 OpenClaw 则揭示一个新兴的研究方向:智体能够积累持久性记忆与可复用技能。然而,当前的研究格局在后训练、信息检索、记忆机制及技能系统等多个领域之间仍显分散。本综述将上述各类进展统一归纳于一个核心概念之下——即“适应”(Adaptation):指在预训练阶段结束之后,通过各种手段对智体本身、其所使用的工具,或二者之间的交互方式进行优化与提升。本文构建一个涵盖“智体适应”与“工具适应”两大维度的四范式框架,以此对该研究领域进行系统性梳理。在智体适应维度上,A1 范式(基于工具执行信号)与 A2 范式(基于智体输出信号)通过运用监督微调、偏好优化以及基于可验证奖励的强化学习等技术,实现对智体自身能力的提升。在工具适应维度上,T1 范式(智体无关型)提供一系列可复用的预训练模块,供任何智体调用;而 T2 范式(智体监督型)则利用智体的输出结果作为监督信号,用于训练记忆系统、技能库或轻量级子智体(subagent)。基于这一框架,其对后训练方法、自适应记忆架构以及智体技能进行全面回顾;对比分析各类方案在成本、灵活性与泛化能力方面的权衡取舍;并总结在深度科研、软件开发、计算机辅助操作及药物发现等应用场景中的评估实践。最后,对智体与工具的协同适应、持续学习、安全性保障以及高效部署等领域中尚待解决的开放性问题进行展望。

如图 1 概览这个适配:
请添加图片描述

1 智体AI系统

智体AI系统(Agentic AI System)将基础模型与规划、工具使用及记忆模块相结合,从而能够自主执行多步任务,并利用环境反馈随时间推移不断优化其行为。本综述重点关注单智体系统,此类系统提供一种既可控又富有表现力的环境,用于研究单个智体如何进行感知、规划与行动。理解单智体的适应机制,是研究多智体系统的先决条件;在多智体系统中,多个智体之间会进行协调、协作或竞争(相关概述请参阅 [1, 2, 31])。

智体AI系统的核心是一个基础模型,通常为大语言模型(LLM)或多模态模型,充当智体的推理与控制中心。此外,若干辅助组件进一步增强智体的自主性:
• 规划模块:将复杂目标拆解为可执行的步骤,并组织这些步骤进行顺序或层级式的执行。根据反馈整合程度的不同,规划过程可分为两种形式。静态规划方法(如 Chain-of-Thought [32] 和 Tree-of-Thought [33])通过单路径或多路径的任务拆解,实现了结构化的推理。相比之下,动态规划方法(如 ReAct [34] 和 Reflexion [35])则整合来自环境或过往行动的反馈,使智体能够在长时序任务或部分可观测场景中,通过迭代的方式不断优化规划并提升性能。
• 工具使用:使智体能够与外部资源及计算系统进行交互,从而将其能力拓展至超越其内部知识局限的范畴。典型的工具包括网络搜索引擎、API接口、代码执行环境、模型上下文协议(MCPs)以及浏览器自动化框架 [36, 3]。工具选择策略本身也是一个需要适应与优化的环节:智体必须学会针对特定的子任务调用哪种工具,以及如何解析工具的输出结果以用于后续的推理。
• 记忆模块:使智体能够保留、检索并利用过往信息,从而实现具备上下文感知能力的推理以及长期的行为一致性。记忆通常划分为短期记忆与长期记忆:短期记忆用于存储当前任务执行过程中产生的上下文信息;长期记忆则跨越不同的会话周期而持续存在,用于积累可复用的知识与经验 [1, 37]。为了从长期记忆中获取相关信息,许多系统采用“检索增强生成”(RAG)机制,该机制能够检索并整合存储的知识,将其融入智体的推理过程之中。设计一个高效的记忆模块面临诸多挑战,例如如何对存储信息进行结构化处理、何时以及保留何种信息、如何高效地检索相关知识,以及如何将其整合进正在进行的推理与决策过程之中。

2 适应(Adaptation)

“适应”是指随着时间的推移,对智体(Agent)或其工具进行调整,以提升其在特定领域、任务或部署条件下的性能。若缺乏适应能力,即便拥有强大能力的基础模型(Foundation Models),也难以将其能力泛化至其预训练数据分布之外的场景。将适应机制大致划分为两大类:基于提示的适应和基于微调的适应。

提示工程(Prompt Engineering)

提示工程是一种轻量级的适应形式,它通过引导智体系统的行为来实现适应,而无需修改模型的内部参数。智体的行为由经过精心设计的输入提示(Prompt)来塑造;这些提示明确定义智体的目标、约束条件以及上下文指令。

所谓“提示”,是指提供给智体核心模型的输入上下文,通常包含指令、示例或任务描述,旨在具体指明智体应展现的行为。通过修改或组合提示,智体无需进行任何额外的模型训练,即可适应新的目标或环境;这使得该方法既高效,又具备跨任务的可迁移性。近年来,此类基于提示的适应机制已在众多智体系统中得到广泛应用,例如 CAMEL [38]、AutoGen [39]、MetaGPT [40] 和 ChatDev [41]。若需全面了解提示工程的技术细节及其设计原则,读者可参阅 Sahoo 的综述文章 [42]。

微调(Fine-Tuning)

与提示工程形成对比的是,微调通过更新核心模型的内部参数来实现对智体的适应。利用特定任务的数据进行训练,能够将模型的内部数据分布调整(迁移)至更契合该特定领域的行为模式。

根据数据的可用性、计算成本以及所需的适应程度,微调操作可在不同的粒度层面上进行。全量微调(Full Fine-tuning)利用带有标签的数据更新模型的所有参数,虽然能提供最大的灵活性,但也往往需要消耗大量的计算资源。作为替代方案,参数高效微调(PEFT)方法——例如低秩适应(LoRA)[20]——仅更新模型参数中的一小部分子集。以 LoRA 为例,它通常仅需更新不到 1% 的模型参数,即可达到与全量微调相媲美的性能效果;这使得该方法对于构建大型智体系统而言,具有极高的实用价值。 PEFT 方法的详细内容,可参阅 Han 的综述文章 [43]。

针对智体适应场景的微调技术,涵盖多种主要的训练范式。监督微调(SFT)[44] 对经过精心筛选的演示样本执行模仿学习。基于偏好的方法(例如直接偏好优化 [DPO] [45] 及其扩展 [46])旨在使模型与人类或自动生成的偏好信号保持一致。强化学习方法(例如近端策略优化 [PPO] [47] 和组相对策略优化 [GRPO] [48])通过与环境交互来优化行为;这些方法仅需奖励信号即可运作,但其训练稳定性通常不及 SFT。上述各类方法更全面的综述,参阅 Zhang 的相关调研论文 [49]。

如图 2 所示该文的结构:
请添加图片描述


本文分析基础的适应范式。根据“适应对象”(即智体或工具)以及“适应信号的获取方式”,对现有关于智体式AI系统的研究进行分类;由此归纳出四种典型的范式,涵盖近期文献中适应研究的主要方向。

1 数学符号

本文所使用的关键数学符号,并将其归纳为三大类:适应目标、适应数据源和适应目标函数。

适应目标。在智体式AI系统中,接受适应处理的实体包括:
• 智体(A):作为系统核心推理与决策组件的基础模型,其参数集记为 θ。对智体的适应可以通过参数更新、提示词优化,或对其内部策略进行其他形式的修改来实现。
• 工具(T):一组外部可调用组件,用于将智体的能力扩展至其内部参数所能触及的范围之外。工具可包括检索器、规划器、执行器、模拟器或其他计算模块。若外部记忆模块充当动态、可更新的存储库,并能与智体的输出进行交互及从中学习,便将其视为工具集 T 的组成部分。访问已存储信息的检索过程通常由专门的检索器或搜索工具负责执行,从而使智体能够查询相关过往知识,并将其整合进自身的推理过程中。值得注意的是,参数化记忆和混合式记忆形式可能会模糊工具(T)与智体(A)之间的界限。
适应数据源。获取适应信号的来源包括:
• 离线数据(D):作为对齐参考或监督信号来源的离线数据,用于改进智体或工具的性能。这些数据可能包括人工标注的演示样本、合成的交互轨迹,或过往交互过程的日志记录。
• 环境(E):智体或工具与之进行交互并从中接收反馈的外部环境。该环境提供“在线经验信号”,用以反映任务执行的成效或执行质量。
适应目标函数。用于指导适应过程的目标函数,旨在对系统性能或对齐质量进行量化评估。
• 目标函数 O(·):在适应过程中需要进行优化的目标函数;该函数依据预设的评估协议,对“智体-工具”系统的整体表现成效进行评价。例如,针对离线数据 D 的目标可能对应于监督学习或模仿学习损失,诸如监督微调(SFT)或行为克隆。当适应过程依赖于与环境 E 的交互时,其目标通常由基于结果的指标来定义,例如任务成功率。

2 智体 AI 的四种适应范式

基于上述符号定义,在此提出四种适应范式。首先,适应过程根据其优化对象——即智体或工具——被划分为不同的类别。在智体自适应方面,各类范式依据优化信号的不同进一步细分:即工具执行反馈(A1)或对智体最终输出的评估(A2)。

四种范式如图 3 所示:
请添加图片描述

A1:工具执行触发智体自适应

在 A1 范式中,智体 A 通过源自外部工具集 T 执行结果的反馈信号得到改进;该范式涵盖这样一类场景:工具的输出结果可作为智体优化过程中的可度量依据。

智体与工具的交互流程。智体接收输入 x(例如,用户查询或任务描述),并生成结构化的工具调用或动作 a = A(x);该调用内容通常包含工具名称、参数及调用上下文。随后,工具集 T 执行该调用,从而产生结果 y = T(a)。二元组 (a, y) 代表一次单一的智体与工具间的交互过程,整个流程可概括为:

x −A→ a −T→ y 。

这一流程管道(pipeline)刻画了智体如何利用工具来完成各项任务。为简化描述且不失一般性,在文中以单次工具调用为例来阐述交互过程;而多轮次的工具使用场景,则可视为对上述形式化描述的直接扩展。

优化目标。鉴于上述交互过程,通用的优化目标是调整智体 A,使其生成高质量的工具调用动作 a,从而使工具执行所产生的后果(即结果)达到更优的性能。形式化地表示为:

(A1) A∗ = argmax_A O_tool(A,T), (1)

其中,O_tool 用于衡量调用工具 T 所获得的输出的质量或正确性,例如工具执行的成功率或检索得分。这一优化过程主要可以通过两种形式来实现:(1) 通过模仿已收集的成功工具调用轨迹;或 (2) 通过交互式地生成动作,并利用由此产生的工具反馈,借助强化学习(Reinforcement Learning)来优化智体 A。

• 监督微调 (SFT)。当存在明确的目标动作时,智体无需进行在线交互,即可从已记录的轨迹中学习并模仿成功的工具使用行为。设 D_succ = {(x, a∗)} 表示一个数据集,其中包含输入 x 和参考动作 a∗,且已知该参考动作能够导向正确或理想的工具执行结果 (y′)。其监督优化目标可表述为:

A∗ = argmin_A E_(x,a*)∼D_succ [l(A(x),a∗)]
≡ argmax_A E_(x,a*) [log p_A(a∗|x)], (2)

其中,l 表示语言模型中用于“下一token预测”(next-token prediction)的交叉熵损失函数。

• 强化学习 (RL)。另一种方案是,智体通过与环境进行交互来获取适应性信号;在此过程中,智体执行工具调用动作,并接收基于执行结果所产生的评估反馈。该过程具体如下:

x −A→ a −T→ y,其中奖励 R = O_tool(y)。

在此过程中,智体 A 基于输入 x 生成一个动作或工具调用指令 a;工具 T 执行该动作 a 并产生结果 y;随后,评估函数 O_tool 赋予一个标量反馈值 R,用于表征任务执行的成功程度或结果质量。该优化目标可表述为:

J(A) = E_x∼D_0,a∼A(·|x),y=T(a) [O_tool(y)], (3)

其中,D_0 表示输入的分布。

A2:基于智体输出的自适应

与 A1 范式不同(在该范式中,自适应信号源自工具执行的结果),A2 范式从智体自身的最终输出中获取其优化信号。为简化起见,下文的描述将聚焦于单轮交互情境;多轮交互的情形可自然地进行扩展。

智体与工具的交互流程。在 A2 范式中,智体首先根据输入 x 生成一个工具调用指令 a;工具 T 执行该调用并返回执行结果 y;随后,智体整合 x 与 y,从而生成最终输出 o:

x −A→ a −T→ y −A→ o ,

其中 o = A(x, a, y)。这一表述自然地涵盖这样一种特殊情况:即智体直接生成 o,而无需调用任何工具。

优化目标。A2 自适应的目标在于对智体进行优化,使其最终输出能够符合正确性、质量或对齐性等相关准则。形式化表示如下:

(A2) A∗ = argmax_A O_agent(A, T) ,(4)

其中,O_agent 负责对智体所生成的最终输出 o 进行评估。同样地,A2 ​​范式的优化过程主要包含两种形式:

• 有监督微调(SFT)。设 D_ans ={(x, y, a∗, o∗)} 表示一个数据集,其中包含输入 x、可选的工具输出 y、参考工具调用指令 a∗,以及目标最终输出 o∗。若仅对最终输出 o∗ 进行监督,将不足以使智体学会如何运用工具,因为智体完全有可能在未调用任何工具的情况下,仅通过提升最终答案的生成概率来达成目标。因此,有效的 A2 范式 SFT 策略会将对最终输出的监督,与 A1 范式中对工具调用指令的模仿相结合。若未调用任何工具,则 a∗ 与 y 均为空,此时优化目标便退化为标准的“答案层级”SFT 任务。

• 强化学习(RL)。当无法获取明确的目标输出时,智体将依据对其最终响应所给予的反馈信号来进行学习。其交互流程如下:

x −A→ a −T→ y −A→ o ,并获得奖励 R = O_agent(o)。

优化目标变为:

J(A) = E_x∼D_0,a∼A(·|x),y=T(a), o=A(x,a,y) [O_agent(o)],

其中 D_0 是任务输入的分布。在此设定下,智体获得的奖励仅取决于其最终输出的质量,而与其调用多少次中间工具无关。

T1:与智体无关的工具自适应

在 T1 范式中,智体 A 保持固定,自适应过程仅针对外部工具集 T 进行。这种设定适用于以下场景:智体是一个无法进行微调的闭源 API(例如 GPT、Claude 或 Gemini);或者,其目标是通过训练检索器、重排序器、规划器、模拟器或其他基础模型等专用工具,来增强一个既定的智体。从这个意义上讲,T1 范式中的“工具”主要指代可训练的模型,无论该模型属于传统的机器学习模型还是大规模的基础模型。
优化目标。T1 范式的目标是以一种与智体无关的方式对工具进行优化:

(T1) T ∗ = argmax_T O_tool(T),

其中 O_tool(T) 用于评估工具所生成结果的质量,通常通过检索准确率、排序质量、模拟保真度或下游任务成功率等指标来进行衡量。鉴于智体保持固定且仅有工具集 T 是可训练的,T1 范式实际上便归结为在各类学习范式(如监督学习、对比学习或强化学习)下的标准模型训练问题。

T2:智体监督的工具自适应

在 T2 范式中,工具的自适应过程由“冻结”(即固定不变)的智体 A 进行引导。与 T1 范式中工具被独立训练不同,T2 范式旨在自适应或构建出能够与固定智体互补、并提升其整体能力的工具。当主智体是一个闭源的基础模型时,围绕该智体训练辅助工具,往往比直接修改智体本身更为可取。

智体与工具的交互流程。如前所述,在此描述单轮交互过程;多轮交互的情况可自然地进行扩展。智体接收输入 x,并生成一个工具调用指令 a = A(x)。工具 T 执行该调用并返回结果 y = T(a);随后,智体整合 (x, a, y) 或 (x, y) 这些信息,从而生成最终输出 o:

x −A→ a −T→ y −A→ o 。

优化目标。工具的优化旨在提升这一固定智能体-工具系统的整体性能:

(T2) T ∗ = argmax_T O_agent(A, T),

其中,O_agent 是一个评估函数,用于衡量智体在配备工具 T 之后所展现出的执行效能。该优化目标强调,T2 范式下的工具自适应是专门针对给定智体的具体需求而进行的。T2 范式中的工具自适应通常采取以下两种形式:

• 监督学习。在监督学习的设定下,冻结的智体提供各类信号,以此指引工具应如何进行改进。其核心思想在于对工具进行调整,使其未来的输出 T(a) 能够对智体后续的推理决策过程提供更有力的辅助。这一理念可通过多种具体方式加以实现。例如:
– 质量加权训练。智体的最终输出 o 会产生一个相应的“质量评分” w = ω(o),该评分反映智体行为结果的理想程度或正确性。工具的训练过程即是根据这一评分,对每一条交互轨迹(trajectory)赋予相应的权重:

T ∗ = argmin_T E_(a,y,o)[w(o) l(T(a), y)],

其中,l 是一个针对特定任务设定的损失函数,其作用在于引导工具的输出结果朝着更优的方向演进。若 w(o) 取离散的二值 {0, 1},则上述训练过程便简化为一种“数据筛选”机制:仅有那些与智体理想输出 o 相关联的交互轨迹,才会被选取用于工具的训练。

– 输出一致性训练。智体(Agent)的最终输出 o 诱导产生一个隐监督目标 tau = varphi(a, y, o),该目标规定工具的输出应如何调整,以便更好地辅助智体。工具的更新方式如下:

T* = argmin_T E_(a,y,o)[l(T(a), tau)]

其中,映射 varphi(a,y,o) 从 y与 o 之间的关系中提取出一个学习目标。这一机制鼓励工具生成能够更有效地与智体下游推理过程相契合的输出。

• 强化学习(RL)。工具的更新依据是一个标量奖励,该奖励基于智体最终输出的质量进行设定。设 R = O_agent(o) 表示赋予最终输出 o = A(x,a,y) 的奖励。此时,强化学习的目标函数变为:

J(T) = {E}_x∼D_0, a=A(x), y=T(a), o=A(x,a,y)} [O_agent(o)]

其中,D_0 表示任务输入的分布。

记忆与适应范式。在本文中,记忆模块被视为 T 范畴内的一种工具。然而,并非所有的记忆系统都能清晰地归入单一的范式;其恰当的分类取决于记忆的形式及其更新机制:
• 外部自适应记忆(主要属于 T2 范式)。当一个“冻结”的智体(Agent)产生输出,并通过固定的或可学习的写入函数 M ← Update(M, o) 来更新外部记忆存储(例如,上下文缓冲区、反思数据库、技能库)时,这一过程符合 T2 范式:智体本身保持固定不变,适应信号源自智体自身的输出,而记忆模块则通过演化来更好地支持未来的推理任务。
• 预训练或插件式记忆模块(主要属于 T1 范式)。那些独立于任何特定智体而进行训练的记忆组件——例如预训练的稠密检索器、静态知识库或现成的嵌入索引——在 T1 范式下充当着与智体无关的通用工具。
• 参数化与混合式记忆(边界案例)。那些编码在模型参数内部的记忆(例如,用于知识注入的 LoRA 适配器,或像 Titans 这样的可微分记忆模块),以及结合参数化存储与外部存储的混合架构(例如 Memory3),模糊“工具适应”与“智体适应”之间的界限。当记忆更新需要通过基于梯度的手段来修改智体自身的参数时,该方法更适合归类到 A1 或 A2 范式下;而当仅更新一组辅助参数集,而核心智体保持冻结状态时,该方法则处于 T1 与 T2 范式的交界处。

遵循这样一种惯例:由记忆适应的主要形式来决定其所属的范式标签。对于本文所探讨的大多数外部、非参数化的记忆系统而言,T2 标签是适用的:即由冻结状态下的智体输出,来主导并监督记忆模块的演化过程。


智体适应(Agent adaptation)是指智体依据来自工具、环境或其自身输出的反馈,来调整和优化其行为的机制。设计中的一个核心抉择在于反馈信号的来源;这一选择不仅决定了智体能够习得的内容,同时也决定了哪些潜在的故障模式将处于“盲区”而无法被察觉。当反馈信号源自工具的执行过程(A1)时,智体能够接收到密集且具有明确因果基础的反馈,这些反馈与具体的动作紧密关联——然而,这类信号却无法洞察智体整体推理策略是否健全。当反馈信号源自对智体自身输出的评估(A2)时,智体能够针对任务的整体成功率进行优化——但由于此类奖励信号较为稀疏且仅在整个任务回合(episode)结束时才给予,这使得“功劳归因”(credit assignment)变得更加困难,同时也降低训练过程中的数据利用效率。A1与A2这两种范式之间,在“机制层面的精确性”与“策略层面的灵活性”之间存在一种张力;正是这种张力,构成设计空间的基本框架。

形式化地讲,设 A 表示一个智体,其行为由内部配置或策略(例如提示模板或模型权重)所参数化;设 T 表示智体可调用的工具集合。上述两种范式分别对应着截然不同的优化目标:

(A1) A∗ = argmax_A O_tool(A, T),(A2) A∗ = argmax_A O_agent(A, T),

其中,函数 O_tool 负责对工具执行结果的正确性或实用性进行评分(例如代码编译是否成功、信息检索的准确率等);而函数 O_agent 则负责对智体所生成输出的质量进行评分(例如推理过程的有效性、事实信息的准确性,或与用户偏好的一致性等)。这种区分在实践中具有重要的现实意义:O_tool 能够为智体的每一个具体动作提供即时反馈(即“功劳归因”至动作层面),但它对于推理过程的质量却保持沉默;相比之下,O_agent 能够捕捉到任务端到端的整体表现,但它往往会将“工具使用技巧”与“推理技巧”混为一谈,一旦其中任一环节出现退化,将导致故障诊断工作变得愈发复杂和困难。

1. A1:将工具执行结果作为信号

A1 自适应方法将工具和环境的输出视为“真值”监督信号:由于该信号由外部执行过程而非模型内部的信念所决定,因此它具有可验证性、可复现性,且密度足以同时支持监督学习和基于强化学习的方法。其面临的关键挑战在于,此类信号仅针对单个动作(即单次 API 调用或单次代码执行)进行优化,从而可能遗漏那些只有在多个动作相互组合时才会显现出来的系统级故障。

早期工作:SFT 与离策略方法

早期的 A1 类方法通过 SFT(监督微调)或 DPO(直接偏好优化)技术,利用预先收集的数据来训练智体(Agent)。这些方法的一个共同局限在于其“离线策略”(off-policy)的数据分布特性:智体所学习的轨迹并非由其自身生成,这可能导致训练阶段的行为与实际部署时的行为之间产生不匹配。在这一方法族系内部,各方法沿着一个关键维度呈现出分化趋势——即关于“何为正确”的定义在不断演进:从最初的“答案层面的正确性”,逐步过渡到“格式层面的有效性”,最终落脚于“原始执行结果”所体现的正确性。

Toolformer [4](NeurIPS 2023)展示了这一演进轴线上的最初形态:即利用工具的执行结果作为一种自监督信号。该模型会将候选的 API 调用指令插入到文本流中并加以执行;仅当某次调用能使文本的困惑度(Perplexity)降低幅度超过预设阈值(即 L-_i − L+_i ≥ τ_f)时,该调用才会被保留下来。由于这种监督信号源自模型自身的概率分布(即语言模型的似然值),而非依赖于某种外部设定的正确性准则,因此 Toolformer 虽能识别出何时使用工具会有所助益,却无法辨别该工具调用指令本身的构建质量究竟如何。随后的研究工作针对这一缺陷进行弥补,并相继提出三种在强度上层层递进的“正确性”定义:

黄金-答案对齐(Golden-answer alignment):经工具增强后的输出结果必须与已知的正确参考答案或专家演示轨迹完全吻合。
黄金-格式对齐(Golden-format alignment):工具调用指令本身必须在结构与语法上均具备有效性,且这种有效性独立于其后续产生的下游输出结果。
直接-执行对齐(Direct-execution alignment):监督信号直接源自工具的实际运行过程,从而消除训练阶段的监督信号与实际部署时的智体行为之间存在的鸿沟。
黄金-答案对齐。这种方法族系中最简明的实现形式,将“正确性”定义为输出结果与已知参考答案或专家演示轨迹之间的匹配程度。该族系方法所面临的一个核心问题在于:应如何有效地利用“负例”(即失败的尝试)?早期的相关方法往往直接舍弃那些执行失败的轨迹;而后续提出的方法则转而将这些失败轨迹视为一种具有参考价值的“对比信号”。

ToolAlpaca [53] 率先确立一种“生成—执行—评估—微调”的闭环迭代范式。在该范式下,模型首先调用工具,随后观测工具在运行时产生的实际结果(包括返回值、错误信息或任务完成状态等),并最终依据这些结果对自身进行重训练。通过对这一循环过程进行反复迭代,模型内部的表征能力得以与工具的实际语义实现深度对齐,进而使模型具备向此前未曾见过的全新工具进行泛化的能力——不过值得注意的是,在该方法中,仅有那些产生“正向结果”(即成功执行)的工具调用实例,才会被纳入模型的学习过程之中。TRICE [54](NAACL 2024)引入一种“排序损失”(Ranking Loss)机制:该机制通过将工具调用的实际执行结果与“黄金-标准答案”(Ground-truth answers)进行比对,从而对各类候选响应进行评分;借此,模型学会仅在工具调用确实有助于提升任务准确率时,才去主动发起工具调用。 TP-LLaMA [55] (NeurIPS 2024) 更进一步,它显式地挖掘 ToolAlpaca 及早期系统(例如 ToolLLaMA [10])所丢弃的失败信息:在成功轨迹上的每一个决策节点处,专家的正确下一步动作被视为优选(y_w),而任何失败的分支则被视为非优选(y_l);随后,针对这些配对数据执行 DPO(直接偏好优化),从而将失败信号转化为对比监督信号。因此,从 ToolAlpaca 到 TP-LLaMA 的演进,揭示 A1 方法中的一个反复出现的主题:对负面反馈的利用越充分,适应过程的数据效率就越高。

黄金-格式对齐(Golden-format alignment)。另一个互补的维度是从结构层面定义正确性:只要工具调用在语法和逻辑上是有效的,无论最终答案是否正确,该调用即被视为正确。当获取“黄金标准”的真实答案成本高昂,但存在规范的工具调用格式时,这种解耦方法便显得尤为有价值。

Gorilla [56] (NeurIPS 2024) 在大规模机器学习 API 数据集上对一个增强检索能力的 LLaMA 模型进行微调;它通过抽象语法树(AST)子树匹配来定义正确性——这种方法比简单的字符串匹配更为鲁棒,因为它能够容忍参数顺序或可选参数上的差异。ToolFlow [57] (NAACL 2025) 作为 Gorilla 的补充,着重解决数据质量问题:它利用基于参数和返回值相似性构建的“工具图谱”来指导交互式工具子集的选取;此外,通过引入“规划式生成”步骤,该系统能够对多轮请求进行编排,从而确保逻辑上的一致性。这两项工作共同表明,格式层面的监督机制能够扩展并适用于那些规模庞大且持续演进的 API 接口场景——在这些场景下,获取黄金标准答案往往是不切实际的;但与此同时,它们也揭示一个局限性:格式上的正确性并不能保证功能上的正确性,因此,以此方式训练出的模型可能会生成格式规范、但在语义上却是错误的工具调用。

直接-执行对齐(Direct-execution alignment)。A1 监督机制中最为强效的形式实现监督闭环的彻底贯通:系统直接执行工具调用,并将执行结果——包括成功状态、失败状态以及具体的返回值——转化为训练信号。这种方法消除对预先标注的答案或规范格式的依赖,但也随之引入一项新的挑战:如何设计出既安全、可复现,又能提供足够丰富信息以支撑模型学习的执行环境。

目前已涌现出两种主要的设计范式。第一种范式将可执行代码作为动作的表征形式。 CodeAct [58] (ICML 2024) 将基于文本或 JSON 的指令替换为沙箱化的代码动作,从而使环境的执行反馈能够直接为模型提供工具因果关系的落地。NExT [59] (ICML 2024) 采用相同的原理,通过一种迭代式的“采样-过滤-训练”(Sample-Filter-Train)循环将其应用于程序修复任务:候选修复方案首先通过单元测试进行验证,仅有通过测试的解决方案才能进入下一轮微调阶段,从而逐步生成更为精准且具备执行感知能力的推理依据。第二种模式旨在实现工具的自主发现。ToolLLM [10] 和 AutoTools [60] (WWW 2025) 均利用大语言模型(LLM)自身的能力,将原始 API 文档解析并转化为可调用的函数(即工具封装),随后通过组合多个函数来构建程序以响应用户查询(即工具编程);在此过程中,程序的执行结果将作为驱动力,推动模型实现迭代式的自我改进。

第三种模式将基于执行结果的偏好学习应用于信息检索领域。LeReT [61] (ICLR 2025) 首先生成多样化的搜索查询,继而通过奖励函数对检索到的文档进行评分,最终利用“恒等策略优化”(Identity Policy Optimization, IPO)算法对查询生成器进行微调。

由于奖励信号源自运行检索器,而非依赖人工标注的答案,因此 LeReT 能够适应任意现成的检索器,且无需对生成器进行任何修改。RetPO [62](NAACL 2025)沿袭同样的逻辑,但成本更为低廉:首先由 GPT-4 生成候选的查询重写文本;接着,利用现成的检索器(例如 BM25)依据检索质量对每一条重写文本进行评分;最后,通过 DPO 算法训练一个规模较小的开源语言模型,使其能够生成高奖励值的查询重写文本。

SFT 与离线策略(off-policy)A1 方法综述。这三个对齐阶段呈现出一条清晰的演进轨迹:从 Toolformer 所采用的自监督似然缩减机制,历经答案与格式层面的匹配,最终过渡至基于直接执行反馈的机制。每一步演进都进一步强化了训练信号与实际部署行为之间的耦合度,从而缩小模型优化目标与推理阶段实际成功要素之间的“现实鸿沟”(reality gap)。然而,所有的离策略方法都面临着一个根本性的局限:由于它们仅能从预先收集的交互轨迹中进行学习,因此无法探索那些未曾出现在训练数据分布中的全新工具使用策略。正是这一局限性,催生“在线策略”(on-policy)RLVR 方法。

基于 RLVR 的方法

带有可验证奖励的强化学习(RLVR)通过允许智体进行在线探索,打破 SFT 和 DPO 方法所受的离线策略(off-policy)性能上限:智体在同一个训练循环内完成动作提议、执行、观察可验证结果以及策略更新的全过程。这种在线策略(on-policy)设置引入两个上述方法所不具备的全新设计维度:(i) 奖励密度——即反馈是逐步抵达(如在定理证明任务中),还是仅在回合结束时才抵达(如在多工具推理任务中),这一维度决定信用分配的难度;以及 (ii) 奖励构成——即如何将特定任务项、格式项和正则化项进行组合。

网络搜索与信​​息检索。DeepRetrieval [22] (COLM 2025) 确立该领域的范式:将查询重构任务建模为一个马尔可夫决策过程(MDP),并以检索指标(如 Recall@K、NDCG 或 SQL 执行准确率)作为奖励信号,进而通过引入 KL 散度正则化的 PPO 算法进行优化。

借助于这一统一的框架,该方法能够自适应地应用于文献检索、问答检索(QA retrieval)以及文本转 SQL(text-to-SQL)等多种任务场景,并在真实世界的搜索引擎环境中实现约三倍的召回率提升(从 24.7% 提升至 65.1%)。

随后的研究工作针对这一单步决策范式的两个局限性进行改进。ReZero [63] 引入基于 GRPO 算法的“重试-觉察型奖励塑形”机制,旨在部分可观测的网络环境中,教会智体在搜索失败后仍能坚持尝试。Orion [64] 则将任务范畴从单步决策扩展至多轮自适应搜索,并采用基于归一化相似度与排名的“轮次级奖励”机制;值得注意的是,该研究仅使用参数量介于 3.5 亿至 12 亿之间的紧凑型模型,便成功学会高效的多跳搜索策略,有力地证明在奖励密度足够充裕的场景下,在线策略 RLVR 方法完全可以替代超大规模的控制器模型。

基于代码的工具。代码执行任务提供一个近乎理想的 A1 级环境:其反馈信号具有确定性,可进行沙盒化隔离,且在代码编译或测试运行的每一个步骤中均可即时获取。在此类任务中,核心的设计挑战在于:随着任务异质性(即任务类型与难度差异)的不断增加,如何确保所获取的反馈信号始终保持其可靠性。 LeDex [65] (NeurIPS 2024) 采用一种复合式 PPO 奖励机制,将单元测试的正确性(CodeBLEU)与解释质量(语义相似度)相结合,从而展示多维度奖励的价值。RLEF [21] (ICML 2025) 将代码合成任务形式化为一个部分可观测马尔可夫决策过程(POMDP):智体在此过程中生成代码、接收公开测试反馈并进行迭代——这一工作表明,多轮交互是解决那些超出模型单次生成能力范围的问题的关键所在。Code-R1 [66] 将研究重心从策略本身转移到奖励构建流程上:通过消除由缺陷测试、无解提示词以及沙箱环境不匹配所导致的“假阳性”信号,该研究证明奖励的质量远比奖励的数量更为重要。R1-Code-Interpreter [67] 针对代码解释器任务(涵盖数学计算、信息检索及数据分析等领域)所固有的异质性,提出一种多阶段课程学习方案;该方案根据样本所蕴含的改进潜力对其进行优先级排序,从而有效缓解了奖励信号稀疏且不稳定的问题。Tool-R1 [68] 则通过引入动态样本队列机制,直接提升样本利用效率;该队列能够缓存并复用高质量的决策轨迹,从而显著降低多步推理任务中的探索成本。

形式化定理证明 [69–77] 为 A1 范式下的 RLVR研究提供一个典型的应用领域,因为证明辅助系统能够在每一个推理步骤中提供基于工具执行结果的“黄金标准”级反馈。在此设定下,智体提出一个或多个策略(即证明步骤),随后由形式化证明检查器(即工具)对这些策略的有效性进行确定性验证,并将验证通过后的证明状态转移结果反馈给智体。验证结果(例如:该策略是否被接受、是否推动证明状态的进展,抑或是否已完成了完整的证明)将直接作为可验证的奖励信号,用于指导策略的优化。相较于基于代码执行的 RLVR 任务(在该类任务中,单元测试往往存在稀疏或不完整的问题),定理证明任务能够提供逐步骤的语义级验证,且其结果具有极低的歧义性;这不仅使得奖励信号更为密集,还极大地缓解长时序任务中普遍存在的“信用分配”难题。 AlphaProof [78] (Nature 2025)、DeepSeek-Prover-V2 [79] (ICLR 2025)、Kimina-Prover [73] 和 Leanabell-Prover-V2 [80] 等近期系统利用这种验证器反馈,通过强化学习来训练多步证明搜索策略;与此同时,另一类互补的研究工作则在基于验证器的奖励信号之上,通过引入辅助引导信号来增强原生的证明检查反馈,从而实现对搜索轨迹的优先级排序、探索过程的塑形或优化过程的稳定 [81–85]。尽管 RLVR 非常适合在证明器处于固定快照状态下学习证明策略,但形式化定理证明领域也凸显一项更广泛的适应性挑战:由 Lean 社区构建的形式化库(例如 MATHLIB [86])以及大型且处于活跃演化中的形式化项目 [87] 正在持续增长,从而不断扩展着可用的前提空间。

多工具推理系统。当需要按顺序或有条件地组合使用多个工具时,智体(Agent)将面临组合式的动作空间以及更为稀疏的“回合级”奖励信号。属于此类的方法通过三种互补的策略来应对这一挑战:(i) 路由机制,(ii) 环境构建,以及 (iii) 密集的“步级”奖励。

Router-R1 [88] (NeurIPS 2025) 是路由机制的一个典型范例:一个基于策略的大语言模型(LLM)学会在内部推理与外部模型选择之间交替切换,从而能够动态地从一个路由池中调用不同的 LLM。FTRL [89] 通过多阶段流水线自动合成多样化的工具使用训练环境,从而解决环境构建的难题;这使得智体无需依赖人工精心构建的外部工具集即可进行训练,同时,一种可验证的奖励机制在工具调用的准确性与任务完成度之间实现了平衡。Tool-N1 [26] 将内部推理(通过 <think> 标签/tags)与外部执行(通过 <tool_call> 标签/tags)分离开来,从而为强化学习(RL)优化器提供针对“思考”与“行动”两个环节截然不同的归因(credit-assignment)通道。WebGen-Agent [90] 展示密集奖励策略的应用:它将来自视觉-语言模型的“外观评分”与来自 GUI 智体的“功能评分”相结合,并通过 Step-GRPO 算法进行整合,从而在代码生成的每一个步骤中都能对交互式网站代码的生成过程进行监督。ToolExpander [91] 旨在解决资源受限环境下的挑战,它采用“动态多轮硬采样”(将硬样本替换为少样本示例)以及“自我示例式思考”机制(对智体自身生成的分析内容给予奖励),从而有效提升 GRPO 算法在小型 LLM 上的训练稳定性。

特定领域的扩展应用。A1 类型的 RLVR技术也已被成功应用至上述核心领域之外的更多场景中。Rec-R1 [92] (TMLR 2025) 将推荐系统任务建模为一种基于 LLM 生成的强化学习策略,并采用 NDCG 和 Recall 作为奖励指标。SQL-R1 [93] 在自然语言转 SQL(NL-to-SQL)任务中采用一种复合式奖励机制,该机制综合考量输出格式、执行结果、最终答案以及代码长度等多个维度。olmOCR 2 [94] 摒弃 olmOCR 1 [95] 中基于 SFT(监督微调)的“教师模仿”训练范式,转而采用多样化的二元单元测试(涵盖文本存在性、阅读顺序、表格准确性及公式渲染效果等多个方面)作为文档 OCR 任务的奖励信号。上述应用案例共同印证一个普适性的规律:只要特定领域能够提供一种成本低廉且结果确定无疑的“正确性预言机”(oracle),那么采用 A1 风格的 RLVR 技术,仅需投入适度的工程资源,便能实现显著的性能提升。跨领域原则。尽管各应用领域(网页搜索、代码生成、定理证明、多工具推理及各类专业应用)呈现出多样化的特征,但在所有的 A1 RLVR 工作中,有四种反复出现的模式贯穿始终:
• 信号密度决定学习效率。那些拥有密集、逐步反馈的领域(如定理证明和代码执行),其收敛速度往往快于那些仅提供稀疏、回合级奖励的领域(如多工具推理)。这种“密集反馈”的特性,解释了为何在代码和证明领域中,A1 类方法所需的数据量通常少于其对应的 A2 类方法。
• 奖励质量重于奖励数量。Code-R1 [66] 和 DeepRetrieval [22] 两项研究均表明:相比于单纯扩大训练数据规模,投入资源构建高质量、经过验证的奖励信号能带来更显著的成效。这一发现不仅适用于检索领域,在代码生成和 SQL 领域中也同样成立。
• 格式奖励必要但不充分。几乎所有成功的 RLVR 方法,都采用“任务特定奖励”与“格式合规性奖励”相结合的策略(例如 DeepRetrieval 中的 rformat 奖励,以及 Tool-N1 中的结构化输出标签)。仅凭格式奖励无法驱动模型产生具有实际意义的适应性行为;但若缺失格式奖励,则往往会导致模型输出结果出现退化(即质量严重下降)。
• 稳定机制具有普适性。KL 正则化、动态采样以及课程表调度等技术,在所有应用领域中均有出现。这表明,在语言智体(Language Agents)中实现“在线-策略强化学习”(On-policy RL)的训练稳定性,是一项具有基础性、而非仅局限于特定领域的核心挑战。
尽管存在上述原则,RLVR 技术的实施成本依然居高不下:它不仅要求精心设计奖励机制,还需要耗费大量的交互式计算资源,并需采取显性的稳定化措施。

A1 的开发线如图 4 所示:
请添加图片描述

2. A2:将智体输出作为信号

A1 侧重于优化单个工具调用的机制,而 A2 则通过将对智体输出的评估结果作为训练信号,来优化智体的端到端输出——包括推理链、最终答案或生成的产物。这种从“动作级”向“输出级”反馈的转变带来两个后果:(i) 智体能够习得 A1 信号无法给予奖励的策略性行为(例如何时调用工具、搜索深度应为多少、是否进行自我纠正);(ii) 归因问题变得更加困难,因为一个单一的“回合级”奖励必须被合理地分配到智体内部做出的众多决策之中。

根据工具是否参与到评估循环中,将应用场景划分为以下两类:
• 无工具辅助的智体自适应:智体通过针对其生成的解决方案进行评估并据此进行优化,从而提升其内在的推理能力(涵盖数学运算、代码编写及逻辑推断等)。该场景下的设计空间主要由评估信号的粒度(是采用简单的正确性标量值,还是采用结构化的语言学式批评反馈)以及模型权重是否进行更新(是基于强化学习进行权重更新,还是仅在推理阶段进行即时优化)这两个维度所界定。
• 有工具辅助的智体自适应:智体的输出结果将结合其与工具的交互过程一并进行评估;因此,所产生的训练信号不仅反映推理过程的质量,同时也体现智体协调及运用工具的技巧。在此场景下,一个关键的额外挑战在于:智体在学习具体的推理策略的同时,还必须同步习学习一套“元策略”——即关于何时以及如何恰当调用工具的策略。

无工具的智体自适应

以下方法由三个设计维度进行归类:(1) 奖励粒度:从简单的二元式“最终答案正确性”判断,延伸至结构化的自然语言式批评反馈;(2) 优化重心:从模型权重更新(如强化学习 [RL] 和监督微调 [SFT]),转移至推理阶段的实时精修(不改变模型权重);(3) 目标范畴:从针对特定任务的正确性,扩展至诸如校准能力或增强人类效能等更宏大的目标。

标量奖励强化学习(R1 范式)。DeepSeek-R1 [25](发表于《自然》杂志,2025年)证实,利用基于二元式“最终答案正确性”的RLVR机制,足以激发大型智体在数学和编程推理方面展现出强大的能力,从而揭示了一条超越传统监督微调(SFT)的可扩展发展路径。Kimi-1.5 [96] 将这一理念进一步拓展至多模态智体领域,通过简化的策略优化手段,在各类推理基准测试中取得与 DeepSeek-R1 相当甚至超越的成绩。上述研究共同确立“R1 范式”:即以基于可验证输出的评估所驱动的强化学习,作为提升智体推理能力的核心动力。

随后的一系列 R1 风格研究,通过调整优化目标来探索该范式的边界:EHRMind [97] 将 RLVR 应用于临床推理任务(即电子病历 [EHR] 解读),研究发现,在正式开展强化学习之前,必须先进行轻量级的监督微调(SFT)预热,以此为智体奠定坚实的领域知识基础——这一规律在各类专业领域中均呈现出普遍性。KnowRL [98] 则将优化目标从“任务正确性”替换为“自我认知校准”:智体因能准确评估自身的置信度而获得奖励,从而在不针对任何特定任务的前提下,提升自身的整体可靠性。Empower [99] 更进一步,将优化目标定义为“最大化人类效能增强”而非单纯的“任务正确性”;该研究仅利用离线文本数据,便成功将辅助型智体调整适配于多轮交互式的编程任务场景。GRACE [100] 巧妙地将对比学习的优化目标转化为强化学习式的策略信号,从而在生成式推理与表征学习之间架起了一座桥梁。另一项相关研究 Rec-R1 [92] 将强化学习应用于产品重排序任务,并采用推荐系统领域的关键指标(如 NDCG 和召回率)作为奖励信号。Rec-R1 的定位介于 A1 范式与 A2 范式之间——若奖励信号是依据外部工具(如排序算法)的输出结果来计算,则归属于 A1 范式;若奖励信号是依据智体自身的整体推荐质量进行评估,则归属于 A2 范式。这一案例生动地表明,A1 与 A2 之间的界限并非总是非此即彼的二元对立关系,其具体归属往往取决于评估信号是在“智体—工具”协作流程中的哪一环节被计算与生成。

推理时自细化(无权重更新)。另一条互补的研究路线致力于在推理阶段实现模型适应,从而避免重新训练所带来的高昂成本。Self-Refine [101] (NeurIPS 2023) 引入“生成-批评-修正”的循环机制:同一个大语言模型(LLM)首先生成初步响应,随后对其进行自我评估,并依据自身生成的文本反馈进行修正;这一过程无需任何监督数据或辅助模型,却能显著提升模型在对话、数学及代码生成任务中的输出质量。SCoRe [101] (ICLR 2025) 进一步实现自修正能力的“可训练化”:通过多轮“在线策略”(on-policy)强化学习,模型被引导着对自身响应进行迭代细化,从而将 Self-Refine 循环机制转化为一种稳定且可操作的学习信号。从 Self-Refine 到 SCoRe 的演进路径,恰好呼应 A1 阶段从 SFT(监督微调)向 RLVR 的演进历程:即推理阶段的启发式规则被学习的策略所取代,且这些策略随着模型规模的扩大而持续优化。

结构化语言反馈。TextGrad [102] (Nature 2025) 将传统的标量奖励信号泛化为自然语言形式的批评反馈,这些反馈详细描述应如何改进模型的输出结果。这些被称为“文本梯度”(textual gradients)的反馈信号,使得在无法直接访问模型参数的“黑盒”LLM 系统中进行优化成为可能;通过这一机制,GPT-4o 在 LEETCODE-HARD 数据集上的零样本(zero-shot)代码生成准确率从 26% 提升至 36%,在 MMLU-Physics 数据集上的准确率也从 91.2% 提升至 95.1%。metaTextGrad [103] (NeurIPS 2025) 进一步将上述原理递归地应用于优化器本身,利用验证阶段的反馈信息来对优化器所使用的提示词(prompts)进行精修。TextGrad 与 metaTextGrad 占据着独特的定位:与传统的强化学习方法不同,它们无需预先设计复杂的奖励函数;而与 Self-Refine 方法不同的是,它们能够在包含多个组件的复杂系统中实现结构化的信用分配与反馈传播。

无工具的 A2 综合。上述各类方法共同构成一个二维的设计空间。在第一个维度(即“奖励粒度”)上,以标量形式呈现的“最终答案正确性”(如 DeepSeek-R1 所采用的机制)虽然具有广泛的适用性,但其反馈信号相对稀疏;而“结构化语言反馈”(如 TextGrad 所采用的机制)虽然蕴含着丰富的信息量,但却要求系统具备一个能力出众的“批评者”模型。沿第二个轴(优化维度)来看,权重更新类方法(如 RL 和 SFT)将适应成本分摊至未来的多次查询中,而推理时方法(如 Self-Refine 和 TextGrad)虽然需要为每次查询支付成本,但无需任何训练基础设施。贯穿这两个维度的共同发现是:先进行 SFT 热启动再接续 RL 的训练模式,其稳定性优于仅使用 RL 进行训练;具体而言,SFT 负责提供领域基础,而 RL 则负责将策略向评估目标的方向进行精细化调整。

A2的开发线如图 5所示:
请添加图片描述

基于工具的智体自适应

当工具被引入 A2 循环(A2 loop)时,智体必须学习一种“元策略”(meta-policy):不仅要学会如何进行推理,还要学会何时调用工具、选择哪种工具,以及如何将工具的输出结果整合回推理链中。尽管奖励信号依然是基于智体的最终输出结果来计算的,但此时的策略空间已显著扩大,这使得“信用分配”(credit assignment)与“数据效率”成为了该领域的核心挑战。

基于检索的工具学习。早期的基于蒸馏与监督微调(SFT)的方法——例如 Self-RAG [104] (ICLR 2024) 及其后续工作 [105–107]——主要通过专家演示来教授智体如何使用检索工具;而基于强化学习(RL)的方法则反其道而行之,允许智体自主探索并发现搜索策略。R1-Searcher [108]、Search-R1 [50] (COLM 2025)、ReSearch [109] (NeurIPS 2025) 及其后续工作 [110–116] 均致力于训练大语言模型(LLMs),使其能够在多轮推理过程中自主生成并优化搜索查询。这一系列方法在设计上的显著差异体现在其“动作表示”(action representation)方式上:R1-Searcher 采用两阶段强化学习框架来激励智体调用搜索 API(其性能较 RAG 基线提升高达 24%);Search-R1 则将搜索调用过程建模为一种综合奖励机制,该机制同时考量检索的证据质量与最终结果的正确性;而 ReSearch 则通过引入 <think><search><result> 等标签,将搜索查询与结果直接嵌入到推理链中,并利用 GRPO 算法对其进行优化。值得一提的是,ReSearch 展现出某种“涌现式”的反射与自我纠错行为——这些具有战略层面的能力并非通过显式监督直接学习,而是源于对整体任务目标进行优化所产生的自然结果。

基于代码与执行的工具学习。代码执行为 A1 循环与 A2 循环之间搭建一座天然的桥梁:代码的执行结果是可验证的(具有 A1 循环的特征),但其所产生的训练信号却旨在评估智体解决问题的整体轨迹(具有 A2 循环的特征)。CodePRM [117] (ACL 2025) 通过构建一个“过程奖励模型”(process reward model)来对中间推理步骤进行评分——该奖励模型基于代码执行结果进行训练——从而形成一套“生成-验证-优化”(Generate-Verify-Refine)的流水线,进而在推理阶段实现对错误的实时修正。 ReTool [51] 将实时代码执行直接整合到强化学习(RL)的轨迹采样(rollouts)过程中,从而使智体能够学会何时调用解释器来卸载计算任务——这生动地展示 A2 训练如何能够发掘出 A1 训练所无法企及的工具使用策略,其关键在于奖励机制取决于智体的“整体回答”(而不仅仅是工具调用本身)是否正确。

通用的多工具与智体学习。在最通用的设定下,智体需要与异构的 API 和环境进行交互。以下介绍的各类方法主要围绕三个反复出现的主题展开:数据生成、自我反思以及基础设施。

在数据生成方面,Self-Challenging Agents [118] 引入一种“自生成课程”机制——模型首先作为“挑战者”创建工具使用任务,随后作为“执行者”利用强化学习来解决这些任务——这一方法在多轮交互基准测试中实现超过两倍的性能提升。Re-ReST [119] 利用环境反馈(例如单元测试结果)通过反思机制来优化低质量的交互轨迹,从而在 HotpotQA 和 AlfWorld 数据集上取得显著的成效。在自我反思方面,Agent-R [120] 通过模型引导的自我批判与蒙特卡洛树搜索(MCTS)轨迹采样相结合的方式,将迭代式的自我纠错过程进行形式化(在各类交互式环境中实现 5.6% 的性能提升);而 Test-Time Self-Improvement [121] 则针对智体在推理阶段自行识别出的不确定案例,执行即时的在线微调操作。在基础设施方面,Agent Lightning [122] 将智体的执行过程与训练过程解耦,从而能够支持复杂的多智体工作流;A2FM [123] 在引入成本正则化的强化学习框架下,将推理与行动过程进行统一(智体能够动态地在“思考”、“工具使用”以及“直接回答”之间进行抉择);而 VerlTool [124] 则提供一套异步轨迹采样基础设施,有效消除智体​​式强化学习训练过程中的同步瓶颈。

A2 方法与工具的融合。结合工具的 A2 方法具有一个显著的共同特征:智体不仅必须学会“如何”使用工具(这也是 A1 方法所关注的目标),更必须学会“何时”使用工具,以及如何将工具的输出结果整合进一条连贯一致的推理链条之中。正是这种“策略性”维度,解释为何 A2 训练过程往往能够催生出诸如自我纠错、自适应搜索深度、查询优化等一系列“涌现行为”——而这些行为在训练过程中从未接受过任何显式的监督信号。其代价在于数据效率:稀疏的、回合级的奖励信号要求要么具备庞大的训练集(例如 Search-R1 所用的约 17 万个样本),要么采用精心设计的课程体系(例如“自挑战智体”所采用的自生成任务)。

。。。。。。待续。。。。。。

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐