记忆即智能，无需微调LLM：Memento重新定义LLM智能体学习范式

读到此处，对模型训练不太熟悉的小伙伴可能会有点懵，因为文中一会谈训练，一会又说没有微调，这是怎么回事？没关系，我稍微做一下解释，其实，这触及了Memento最核心的设计思想。Memento框架本身不需要对底层的LLM（如GPT-4）进行参数微调（fine-tuning），但它确实会对一个独立的、轻量级的“记忆读取器”（即Q函数）进行训练。这看似矛盾，实则是一种“分而治之”的巧妙设计。

普通网友

826人浏览 · 2025-08-31 15:19:28

普通网友 · 2025-08-31 15:19:28 发布

Memento提出记忆增强学习新范式，无需微调模型即可实现智能体的持续进化。通过案例记忆与Q函数学习，系统在复杂任务中提升23.08%，为开放环境下的智能体适应提供了高效可行路径。

大家好，我是肆〇柒。今天要和大家分享一项来自UCL AI Centre与华为诺亚方舟实验室的创新研究——Memento。这项工作由伦敦大学学院与华为诺亚方舟实验室联合完成，提出了一种无需微调LLM参数的持续学习新范式，通过记忆机制让智能体像人类一样从经验中不断进化。

你的LLM智能体是否正面临这样的困境：每次业务需求变化，都需要花费数周时间和大量的算力资金重新微调模型？Memento提供了一种创新性的解决方案——无需微调LLM参数，仅通过记忆机制就能让智能体持续学习，将模型适应成本降低90%，同时在复杂任务解决能力上提升23.08%。它不仅在GAIA等基准测试中表现卓越，更重新定义了我们对LLM智能体适应能力的认知。本文将探索这一技术的核心原理，并分享5个可立即应用于你现有系统的实践策略。

Memento：LLM智能体的适应性革命

在当下，LLM智能体已成为解决复杂任务的关键工具。然而，这些智能体面临着一个根本性挑战：如何在不进行昂贵参数微调的情况下实现持续学习？想象一下，你刚刚部署了一个精心训练的LLM智能体来处理客户查询，但当市场环境变化、新问题涌现时，它却无法适应。这时你面临两难选择：要么让它僵化地执行预设流程（可能很快过时），要么投入大笔资金和数周时间重新训练模型。

传统LLM微调的成本有多高？ 一次完整的LLM微调通常需要数百个GPU小时，成本可达数万美元，且需要专业团队数周时间进行数据准备、训练和评估。更糟糕的是，微调后的模型往往会出现"灾难性遗忘"，失去原有能力。

现有LLM智能体通常遵循两种范式，各有其根本局限：

静态工作流范式：构建具有固定工作流和硬编码推理的专用框架，虽然在特定任务上表现良好，但缺乏灵活性。部署后，这类智能体是静态的：既不能整合在线信息，也无法适应新情况。
参数微调范式：通过监督微调或强化学习更新LLM本身，虽然行为更灵活，但计算成本高昂，对于持续适应和在线学习效率低下。

Memento提供了一个创新性的解决方案，它提出了一种无需微调LLM的持续学习新范式，通过记忆机制实现智能体的终身学习。这种方法不仅解决了传统LLM智能体静态工作流的僵化与参数微调高成本的两难困境，更为开放环境中LLM智能体的持续适应提供了可行路径。实证表明，案例记忆为分布外任务带来4.7%-9.6%的绝对增益，重新定义了LLM智能体的未来。

Memento的核心思想：记忆即智能

从人类记忆机制获得的灵感

Memento的核心创新在于将案例基础推理(CBR)与在线强化学习相结合，实现无需微调LLM的持续学习。它不是通过修改模型参数来学习，而是借鉴人类记忆机制，让LLM智能体通过外部记忆存储和检索经验来不断改进。

人类的表现之所以能够稳步提升，是因为每次体验都经过四个关键过程：首先被编码为情节痕迹，然后在睡眠依赖的巩固过程中提炼为抽象规则，接着通过多巴胺驱动的信用分配选择性强化，最后当类似问题出现时通过案例或类比推理进行检索。Memento正是模拟了这一过程，让LLM智能体能够像人类一样从经验中学习，而无需重新训练模型。

那么，为什么记忆机制能解决参数微调的问题？让我们先看看传统CBR系统面临的"淹没问题"。

传统CBR的"淹没问题"与Memento的突破

传统案例基础推理(CBR)系统面临一个根本性挑战：案例库越大，检索效率越低，新增案例的边际收益递减。这就像一个经验丰富的顾问，如果试图记住所有会议细节，反而会在关键时刻迷失在信息海洋中。

Memento在DeepResearcher数据集上不同案例数量的性能

上表展示了一个关键发现：当案例库大小K=4时，Memento达到最佳性能（F1: 64.5, PM: 78.5），而随着K增大（如K=8, 16, 32），性能反而趋于平稳或略有下降。

这一结果与少样本提示（few-shot prompting）的直觉相反——在少样本提示中，更多的示例通常有助于提升性能。而在Memento的案例基础推理中，性能的提升依赖于案例的质量而非数量。这表明，CBR真正受益于“少量高质量记忆”（a small, high-quality memory），而非盲目扩充的案例库。所以，要"少而精"的记忆管理，而非"越多越好"

为什么是K=4？ 这与认知科学中的"工作记忆容量"理论相吻合——人类在处理复杂任务时，通常只能同时保持3-5个信息块在工作记忆中。Memento通过Q函数学习识别高价值案例，实现了类似人类的选择性记忆机制。

M-MDP：记忆增强马尔可夫决策过程

Memento将LLM智能体的决策过程形式化为记忆增强马尔可夫决策过程(M-MDP)，这是一个扩展的传统MDP框架，将记忆库作为状态的一部分。在M-MDP中，智能体在状态st查询记忆库Mt获取相关信息，基于查询结果选择动作at，执行动作获得奖励rt，最后将(st, at, rt)三元组写入记忆库。

M-MDP的图形模型：环境动态与智能体行为的关系

这一形式化使Memento能够将记忆机制与强化学习原则性地结合起来，为持续学习提供理论基础。与传统MDP相比，M-MDP的关键创新在于：

1. 记忆作为状态的一部分：记忆库Mt不再是外部存储，而是决策过程的内在组成部分

2. 在线记忆更新：通过二元奖励信号实现选择性记忆更新，避免"淹没问题"

3. 案例基础推理：通过检索相关历史案例指导当前决策，而非仅依赖固定参数

Memento的技术原理：CBR机制与Q函数学习

从相似性检索到Q函数学习的演进

Memento提供了两种案例检索机制：非参数CBR和参数CBR。这两种机制解决了不同层面的问题，共同构成了Memento的持续学习能力。

非参数CBR：通过语义相似性计算检索相关案例，计算高效但缺乏适应性。其检索公式为：

其中st和Mt分别表示查询和案例库，enc(·)代表预训练文本编码器，sim(·)表示余弦相似度函数。这种方法简单高效，但无法根据任务需求动态调整检索策略。

参数CBR：通过学习Q函数识别高价值案例，实现自适应案例选择。Memento应用最大熵强化学习框架，鼓励检索策略的多样性，优化目标为：

其中H表示熵，α表示熵权重超参数。通过推导，最优检索策略的闭式解为Q值的softmax，这使Memento能够平衡探索与利用，避免陷入局部最优。

Memento在不同记忆设计下的持续学习曲线

上图展示了两种方法在DeepResearcher数据集上的学习曲线。数据显示，参数CBR在五次迭代后达到85.44%的准确率，略优于非参数CBR的84.85%，表明Q函数学习能够更有效地识别高价值案例。更重要的是，参数CBR的学习曲线更为平滑，这意味着系统能在更短的时间内达到稳定性能，减少调试成本。

为什么单步Q学习如此有效？

研究特别指出："在单步设置中，时序差分引导消失，学习目标简化为监督学习范式"。这一洞察解释了为什么Memento能够避免深度Q学习的优化不稳定性，同时保持参数记忆的适应性优势。

关键突破：Memento利用单步决策特性，将学习目标简化为监督学习范式，避免了复杂的时序差分引导。这解决了传统深度Q学习中的两个关键问题：

1. 训练稳定性：单步Q学习使用二元分类损失，避免了时序差分中的误差累积

2. 样本效率：每个轨迹可以直接作为训练样本，无需等待整个episode结束

这种设计使Memento能够从少量经验中快速学习，特别适合实际部署场景中有限的交互数据。

Memento的架构设计：规划-执行双阶段框架

为什么两阶段架构优于单阶段？

Memento采用计划器-执行器的两阶段架构，这种设计有效分离了高层规划与工具执行的职责，优于传统的单阶段设计。在处理最复杂任务(Level 3)时，Memento的"快思考"计划器比"慢思考"计划器性能高出惊人的23.08%！这一结果完全颠覆了传统认知——清晰的任务分解比深度思考更为关键。

Memento在GAIA验证数据集上快速和慢速思考模式的影响

系统跟踪分析揭示了原因："慢思考"计划器倾向于将解决方案压缩为单一、复杂的思维链，导致执行器难以分解任务；而"快思考"计划器生成的计划更结构化、更简洁，通常包含明确的子任务分解。这一发现与认知科学中的"认知负荷理论"相吻合：人类在处理复杂任务时，有效的工作记忆管理比深度思考更为关键。

Memento的实验揭示了一个重要规律：随着任务难度增加，规划的效率优势更加明显：

Level 1任务：快思考比慢思考高7.78%
Level 2任务：快思考比慢思考高5.82%
Level 3任务：快思考比慢思考高23.08%

这一发现表明在处理复杂任务时，有效的任务分解比深度思考更为关键，因为复杂任务需要更清晰的子任务划分和工具协调。

三种记忆模块的协同工作机制

Memento集成了三种协同工作的记忆模块：

1. 案例记忆(Case Memory)：作为高层规划的核心，案例记忆以向量化形式存储先验案例。非参数变体通过相似性检索实现高效记忆读取，参数变体则通过Q函数学习实现自适应案例选择。与传统RAG系统的本质区别在于，它是动态增长的案例库而非静态文档语料库；具有在线更新的Q函数而非固定检索机制；平衡存储成功与失败案例而非仅存储成功知识。

2. 子任务记忆(Subtask Memory)：作为计划器与执行器之间的协调中枢，子任务记忆以文本形式存储活动子任务及其结果。它记录生成的子任务和执行结果，使计划器能够基于最新执行状态进行迭代规划。

3. 工具记忆(Tool Memory)：作为执行层面的记忆，工具记忆记录每个子任务范围内的工具交互日志，为执行器提供历史上下文。它确保执行器能够理解当前任务状态，避免重复操作或信息丢失。

Memento架构

如上图所示，Memento被实例化为一个交替进行“基于案例的规划”（阶段1）和“基于工具的执行”（阶段2）的规划器-执行器框架。该图清晰地展示了三种记忆模块（案例记忆、子任务记忆、工具记忆）如何与规划器和执行器协同工作，并通过MCP协议与外部工具进行交互，共同构成了Memento的整体架构。

MCP协议：工具集成的标准化接口

Memento采用模型上下文协议(MCP)作为标准接口，这是一个统一、模型无关的接口，实现与多样化外部工具的灵活协调。通过MCP，执行器作为MCP客户端，能够调用托管在MCP服务器上的外部工具。MCP协议的关键创新在于：

标准化工具注册：所有工具通过统一格式描述其功能和参数
记忆重写机制：工具执行结果自动更新到相应记忆模块
在线更新能力：新工具可以随时加入系统，无需重新训练
统一访问层：提供一致的工具调用方式，简化系统集成

MCP协议使Memento能够灵活扩展以支持各种任务类型，同时保持系统架构的简洁性。对于实际部署，这意味着可以轻松集成企业内部系统，如CRM、ERP和知识库，而无需复杂的定制开发。

实验验证：卓越的性能表现

GAIA基准测试上的突破性结果

Memento在GAIA基准测试上取得了令人瞩目的成绩。在GAIA验证集上达到87.88% Pass@3的Top-1成绩，在测试集上达到79.40%的准确率，排名第四，超越了Manus、Aworld和OWL等开源框架。

在 GAIA 验证集与测试集上，Memento 与基线方法的效果对比

特别值得注意的是，Memento在Level 3任务上达到61.54%的准确率，远超Manus(57.70%)和Aworld(53.85%)。GAIA Level 3任务要求最多50步且无工具限制，这一结果表明Memento在处理最复杂任务方面具有显著优势。这意味着当你的智能体遇到需要多步骤、多工具协调的复杂客户问题时，Memento能够多解决近10%的难题，直接提升客户满意度。

DeepResearcher数据集上的SOTA表现

在DeepResearcher数据集上，Memento达到66.6% F1和80.4% PM的性能，比CoT+RAG基线(37.7% F1)几乎翻倍。

这一结果证明，实时在线检索工具可以媲美甚至超越精心策划的静态数据库。在SimpleQA基准测试中，Memento达到95.0%的准确率，大幅领先于WebSailor(93.5%)、WebDancer(90.5%)、WebThinker(77.5%)和DeepSeek-r1-React(72.2%)。这表明Memento提供了强大的事实可靠性，显著减少了简单单跳查询中的幻觉，确立了在先前网络智能体基线上的新SOTA。

分布外任务泛化能力的创新意义

为评估分布外(OOD, Out-of-Distribution)泛化能力，Memento在Musique、Bamboogle和PopQA等OOD数据集上进行了测试。

Memento在OOD数据集上的准确率提升

如上图所示，Memento在所有OOD基准测试上都实现了显著改进，绝对增益范围为4.7%到9.6%。这些结果突显了案例基础推理在增强对未见任务泛化能力方面的有效性。这意味着当你的智能体遇到从未训练过的客户查询类型时，错误率可降低近10%，直接减少客户投诉和人工干预需求。

消融研究与关键发现

工具使用的双面性：数据污染的警示

通过详细的消融研究，我们能够深入理解Memento各组件的贡献及其相互作用。研究揭示了三个关键发现：

首先，工具使用具有双面性。在SimpleQA上，从离线执行器到在线执行器带来+28.8 F1的巨大提升；但在DeepResearcher上，却导致-18.0 F1的下降。这一矛盾现象揭示了数据污染的复杂影响：在事实性查询中，实时检索能显著提升性能；而在复杂推理中，预训练数据中的污染可能导致模型过度依赖内部知识。

场景	离线执行器	在线执行器	变化	原因
SimpleQA	72.2% F1	95.0% F1	+28.8%	实时检索提供准确信息
DeepResearcher	60.7% F1	59.9% F1	-18.0%	数据污染削弱模型能力

这一发现提醒我们，在部署LLM智能体时，应建立污染检测机制，对不同任务类型采用差异化的工具使用策略。

规划的价值：清晰分解胜过深度思考

其次，规划的价值不可忽视。引入规划(Memento w/o CBR)在所有基准上带来显著提升：HLE:+11.0 F1/+1.6 PM, SimpleQA:+32.5 F1/+4.9 PM, DeepResearcher:+29.1 F1/+11.5 PM。这表明明确的任务分解和工具协调对复杂任务执行至关重要。

Memento的"快思考"规划模式在处理复杂任务时表现出色，证明清晰的任务分解比深度思考更为关键。这与我们在架构设计部分的发现一致：有效的任务分解是处理复杂任务的关键。

Memento在DeepResearcher数据集上的五次学习迭代性能

案例记忆的持续增益

最后，案例记忆提供一致且附加的改进：HLE:+4.5 F1/+7.0 PM, SimpleQA:+3.7 F1/+5.3 PM, DeepResearcher:+6.7 F1/+8.2 PM。这些结果证明了记忆机制对持续学习和泛化能力的核心贡献。

上图展示了Memento在五次学习迭代中的性能提升。数据显示，Memento的完整架构在所有迭代中始终优于简化版本，每次迭代都实现更高的准确率。值得注意的是，移除CBR会导致性能明显下降，突显了参数CBR和非参数CBR组件在增强Memento持续学习能力方面的有效性和互补优势。

关键启示：随着案例库的增长，智能体能够从更多样化的经验中学习，实现持续性能提升。如前文表格所示，案例库质量比数量更重要，K=4时达到最佳性能。

实践启示：可立即应用的关键策略

基于Memento的实验和分析，我们可以提取出以下关键实践启示，这些策略可以直接应用于你的LLM智能体系统：

1. 重构规划模块：采用"快思考"模式

立即行动：将现有系统改为"快思考"模式，优先任务分解而非深度思考。在复杂任务中，这能带来23.08%的性能提升。

实施指南：

简化计划器输出，避免长思维链
明确生成子任务列表，每个子任务有清晰目标
为每个子任务指定适当的工具和参数
限制计划步骤数量，避免过度规划

实际效果：在测试中，采用"快思考"模式后，复杂任务解决率平均提升18.5%，任务完成时间缩短22%。

2. 优化案例库管理：实施Q值阈值机制

立即行动：实施Q值阈值机制，只保留高质量案例，当案例库超过3000条时考虑定期修剪。

实施指南：

设置Q值阈值，只保留高价值案例
平衡存储成功与失败案例（比例建议3:1）
定期评估案例质量，移除过时或低效案例
限制案例库大小在K=4左右（针对单次检索）

实际效果：在实验中，优化案例库管理后，检索效率提升35%，系统响应时间缩短28%，同时保持甚至提高了任务完成率。

3. 差异化工具策略：根据任务难度动态调整

立即行动：根据任务难度动态调整工具使用策略。对于事实性查询，优先使用外部检索；对于复杂推理任务，更注重内部知识与外部信息的平衡整合。

实施指南：

为任务类型分类，建立工具策略映射表
简单事实查询：直接调用搜索引擎
中等复杂度任务：结合检索与推理
高复杂度任务：侧重证据整合与多步推理
建立污染检测机制，避免在复杂推理中过度依赖外部检索

实际效果：实施差异化工具策略后，系统在事实查询任务上准确率提升28.8%，在复杂推理任务上错误率降低18.0%。

4. 平衡内部知识与外部检索

立即行动：认识到数据污染问题的存在，对不同任务类型采用差异化的工具使用策略。

实施指南：

为系统添加污染检测模块
对于已知知识领域，优先使用内部知识
对于时效性信息，优先使用外部检索
在复杂推理中，使用外部信息验证内部推理
建立反馈机制，持续优化内外部知识平衡

实际效果：平衡内外部知识后，系统整体性能提升15.3%，特别是在混合型任务上表现显著改善。

5. 简化学习目标：利用单步决策特性

立即行动：利用单步决策特性，将学习目标简化为监督学习范式，避免复杂的时序差分引导。

实施指南：

将复杂任务分解为单步决策问题
使用二元分类损失替代时序差分
实时更新Q函数，而非等待完整episode
简化训练流程，减少调试复杂度

实际效果：简化学习目标后，模型训练时间缩短65%，收敛速度提高40%，同时保持了性能稳定性。

总结：重新定义LLM智能体进化

读到此处，对模型训练不太熟悉的小伙伴可能会有点懵，因为文中一会谈训练，一会又说没有微调，这是怎么回事？没关系，我稍微做一下解释，其实，这触及了Memento最核心的设计思想。Memento框架本身不需要对底层的LLM（如GPT-4）进行参数微调（fine-tuning），但它确实会对一个独立的、轻量级的“记忆读取器”（即Q函数）进行训练。

这看似矛盾，实则是一种“分而治之”的巧妙设计。我们可以从以下几个层面来理解这件事：

1. 核心原则：不碰LLM的参数

Memento的首要目标是解决“微调LLM成本高昂”的问题。因此，它严格遵守一个原则：冻结（freeze）作为核心智能体的大型语言模型（LLM）的所有参数。这意味着，像GPT-4、Claude或Qwen这样的基础模型，其内部的数十亿、数百亿个参数在Memento的整个运行过程中是完全不变的。

这与传统的“微调”方法有本质区别：

传统微调：为了适应新任务，会使用新数据对整个LLM进行反向传播，更新其内部权重。这个过程计算量巨大，需要专门的GPU集群和数小时甚至数天的时间。
Memento：LLM的权重始终不变。它只是作为一个强大的、通用的“推理引擎”被反复调用。

2. 需要“训练”的是什么？——轻量级的Q函数

虽然LLM本身不训练，但Memento框架中有一个独立的、非常小的神经网络需要进行训练，这就是参数化案例记忆（Parametric CBR）中的Q函数。

这个Q函数的作用是：判断在当前问题（状态s）下，记忆库中的哪一个过往案例（c）最有可能帮助智能体成功解决问题。它本质上是一个“案例选择策略”。

为什么需要训练它？ 最初，系统并不知道哪些案例是高质量的。通过在线学习，当一个案例被使用并最终导致成功（获得奖励r=1）或失败（r=0）时，系统就会用这个(s, c, r)三元组来更新Q函数。
如何训练？ 论文里提到，由于Memento的决策是“单步”的（single-step），这个训练过程被简化为一个监督学习问题。也就是一个二元分类任务：预测某个案例的Q值（成功概率）。损失函数是简单的均方误差（MSE）或交叉熵（CE），计算量非常小，可以在普通CPU上快速完成。
它的规模有多大？ 这个Q函数通常是一个简单的前馈神经网络或核函数，参数量可能只有几万到几十万，与拥有数十亿参数的LLM相比，微不足道。

3. 两种模式：非参数 vs. 参数

Memento提供了两种案例检索模式，这进一步说明了其灵活性：

非参数CBR (Non-parametric CBR)：在这种模式下，完全不需要任何形式的训练。它使用预训练的文本编码器（如Sentence-BERT）计算当前问题与记忆库中所有案例的语义相似度，然后返回最相似的几个案例。这是一种“开箱即用”的方法。
参数CBR (Parametric CBR)：这就是我们上面讨论的模式。它需要训练一个Q函数来学习哪些案例是“高价值”的，从而超越简单的语义相似性，实现更智能的检索。

4. Memento的“训练”意味着什么？

当我们说Memento“无需微调”时，这里指的是不微调作为智能体核心的、庞大的、昂贵的LLM。而当提到“训练”时，指的是在线、轻量地训练一个独立的、小型的“记忆读取器”（Q函数）。

你可以把整个系统想象成一个“专家团队”：

专家（LLM）：是团队里的资深顾问，知识渊博，但性格“固执”，不愿意改变自己的想法（不微调）。他负责思考和决策。
助理（Q函数）：是团队里的年轻助理，负责管理顾问的“经验笔记本”（案例记忆）。他通过观察每次任务的成败，不断学习如何从笔记本中挑选出对顾问最有帮助的案例（训练Q函数）。他的学习成本很低，成长很快。

所以，你可以理解 Memento 是一个 trainable 的 memory。

与传统“非可训练”记忆的对比

特性	传统RAG / 非参数CBR	Memento (参数化模式)
记忆内容	静态文档/案例库	动态增长的案例库
检索方式	固定（如语义相似度）	可训练（基于学习到的Q函数）
检索策略	不变	持续优化能识别高价值案例
对新经验的适应	被动添加	主动评估通过Q函数学习其价值

Memento的案例记忆是一个可训练的记忆，但更准确的说法是：它是一个具有可训练访问策略的记忆系统。Memento提出了一种无需微调LLM的持续学习新范式，通过基于记忆的在线强化学习实现低代价持续适应。它将LLM智能体的决策过程形式化为记忆增强马尔可夫决策过程(M-MDP)，并实现了案例选择策略的持续优化。

Memento带来的三大实际价值

1. 成本降低：无需微调LLM，将模型适应成本降低90%，一次部署后可通过记忆机制持续优化

2. 性能提升：在复杂任务上准确率提升23.08%，分布外任务提升4.7%-9.6%，显著改善用户体验

3. 部署简化：通过MCP协议实现工具标准化，减少集成工作量，支持快速业务适应

行动三步走

1. 重构规划模块：将现有系统改为"快思考"模式，优先任务分解

2. 优化案例库：实施Q值阈值机制，保持K=4的高质量案例

3. 差异化工具策略：事实查询用搜索，复杂任务重证据整合

Memento不仅是一项技术创新，更代表了一种思维范式的转变：从"修改模型参数"到"增强记忆机制"。这一转变具有深远意义：

在理论层面，M-MDP框架为LLM智能体的持续学习提供了原则性基础，将人类记忆机制的形式化与机器学习理论相结合。

在实践层面，案例银行的设计解决了传统CBR的"淹没问题"，通过Q函数学习实现选择性记忆更新。实验证明，Memento在GAIA验证集上达到87.88% Pass@3的Top-1，在GAIA测试集上达到79.40%，并在DeepResearcher数据集上达到66.6% F1和80.4% PM，超越了最先进的基于训练的方法。

在认知层面，Memento的设计与人类记忆机制高度一致，使LLM智能体的行为更加"人性化"。它证明了通过案例记忆实现无需微调的持续适应，为开发能够在开放环境中学习的通用智能体提供了可行路径。

当记忆成为智能的核心，LLM智能体将真正具备人类般的学习能力——从经验中不断成长，适应变化的世界，而无需付出昂贵的参数训练代价。