论文遵循 “引言→分类→分方向详解→评估→挑战与总结” 的经典综述结构

引言

规划是智能体的核心之一。

传统工作主要依赖于符号方法或基于强化学习的方法,符号化方法需要将灵活的自然语言描述的问题转换为符号化建模,通常,这种方法缺乏错误容忍度,导致即使只有少数错误也会导致失败。RL算法通常需要大量的样本来学习有效的策略,但在收集数据耗时或昂贵的场景中,这是不切实际的或成本高昂的。

大型语言模型(LLM)的出现标志着方法的转变。LLM 具备强大的推理、工具使用、指令跟随能力,可作为智能体的 “认知核心”,弥补传统方法的局限。因此基于 LLM 的智能体的规划能力有着很大潜力。

LLM 智能体规划的 5 大方向及其优缺点

任务分解(Task Decomposition)

类似分治的思想,将复杂多步任务拆分为简单子任务,降低规划难度

例如CoT

多规划选择(Multi-Plan Selection)

生成多个候选规划,通过搜索算法选最优,避免单规划的次优 / 不可行问题

例如ToT(思维树):结合广度优先搜索(BFS)、深度优先搜索(DFS)等搜索算法,持续探索状态直到达到最终步骤

优缺点

优势是探索更全面,但缺点是多规划生成需更多 Token,计算成本高,且依赖 LLM 的评估能力,存在随机性。

## 外部规划器辅助(External Planner-Aided)

让 LLM 负责 “任务形式化”,外部规划器负责 “高效生成可行规划”,兼顾 LLM 的语义理解与传统规划器的严谨性

反思优化(Reflection & Refinement)

通过 “生成 - 反思 - 修正” 的迭代,让 LLM 从失败中学习,提升规划容错性

记忆增强(Memory-Augmented)

用额外记忆模块存储常识、历史经验等,检索辅助规划,提升连续性与适应性

分为 

RAG-based 记忆:外部存储,实时更新但依赖检索精度和 Embodied 记忆:参数微调,容量大但更新成本高

评估:如何衡量 LLM 智能体的规划能力?

主流测评方法

交互游戏环境

以 ALFWorld 为例:

在 ALFWorld 中,包含交互式文本世界环境,智能体需要在类似房间的场景中完成各种任务,如 “put some vase in safe”。在这些环境里,智能体面对的是丰富多样的元素和复杂的任务要求,通过统计智能体完成特定任务的成功率,能直观衡量其在复杂环境下规划行动步骤、应对各种情况并达成目标的能力。

交互检索环境

例如 HotPotQA、FEVER,可以测量agent信息检索与推理的规划能力

HotPotQA 是一个包含 113k 基于维基百科的问答对的数据集,其中的问题需要查找和推理多个支持性文件来回答 ,例如在回答问题时,智能体可能需要从多篇维基百科文章中提取关键信息,并进行综合推理才能得出答案。

 交互编程环境

如 AgentBench、MiniWoB++,可以测量代码生成与问题解决的规划能力。

在 AgentBench 环境中,智能体需要通过与计算机交互,编写代码或指令来解决与操作系统、数据库等相关的问题。

实验结论

性能与成本正相关

反思(Reflexion)、多规划(CoT-SC)等方法虽提升成功率,但 Token 消耗更高(如 Reflexion 成本是 ReAct 的 2 倍)

少样本示例的重要性

零样本 CoT(Z-CoT)在复杂任务中性能骤降,少样本(F-CoT)能帮助 LLM 理解任务

ps:少样本:传统提示方式直接提供问题和答案,而思维链提示在问题与答案间插入多个中间推理步骤,帮助模型理解问题结构并逐步推导答案。少样本思维链则在此基础上,通过少量示例展示推理过程,引导 LLM 进行推理。

反思提升容错性

Reflexion 在 ALFWorld、ScienceWorld 等复杂任务中成功率显著高于 ReAct,证明 “错误修正” 的价值。

现存的核心挑战

论文在结尾指出当前 LLM 智能体规划存在 5 大核心挑战:

幻觉问题

LLM 易生成 “不存在的动作 / 物品”,导致规划不合理,需更强的事实约束;

规划可行性

LLM 基于统计学习生成规划,难以满足复杂束(如罕见场景的前置条件),需结合符号模型

规划效率

现有方法多 “贪心生成”,未考虑动作序列的效率(如路径最短、成本最低),需加效率评估模块

多模态反馈

LLM 擅长文本,但真实环境反馈含图像、音频等,需结合多模态 LLM

细粒度评估

现有基准多测 “最终成功率”,缺乏 “步骤级评估”,需设计更贴近真实场景的评估环境(如用 LLM 生成动态反馈)

论文地址:

http://arxiv.org/abs/2402.02716

Logo

更多推荐