LLM-agent 的 Planning 综述

本文为作者阅读论文 Understanding the planning of LLM agents: A survey 的论文理解，仅自留使用，欢迎交流。

吃饱了还能继续吃

776人浏览 · 2025-09-23 16:38:51

吃饱了还能继续吃 · 2025-09-23 16:38:51 发布

论文遵循 “引言→分类→分方向详解→评估→挑战与总结” 的经典综述结构

引言

规划是智能体的核心之一。

传统工作主要依赖于符号方法或基于强化学习的方法，符号化方法需要将灵活的自然语言描述的问题转换为符号化建模，通常，这种方法缺乏错误容忍度，导致即使只有少数错误也会导致失败。RL算法通常需要大量的样本来学习有效的策略，但在收集数据耗时或昂贵的场景中，这是不切实际的或成本高昂的。

大型语言模型（LLM）的出现标志着方法的转变。LLM 具备强大的推理、工具使用、指令跟随能力，可作为智能体的 “认知核心”，弥补传统方法的局限。因此基于 LLM 的智能体的规划能力有着很大潜力。

LLM 智能体规划的 5 大方向及其优缺点

任务分解（Task Decomposition）

类似分治的思想，将复杂多步任务拆分为简单子任务，降低规划难度

例如CoT

多规划选择（Multi-Plan Selection）

生成多个候选规划，通过搜索算法选最优，避免单规划的次优 / 不可行问题

例如ToT（思维树）：结合广度优先搜索（BFS）、深度优先搜索（DFS）等搜索算法，持续探索状态直到达到最终步骤

优缺点

优势是探索更全面，但缺点是多规划生成需更多 Token，计算成本高，且依赖 LLM 的评估能力，存在随机性。

## 外部规划器辅助（External Planner-Aided）

让 LLM 负责 “任务形式化”，外部规划器负责 “高效生成可行规划”，兼顾 LLM 的语义理解与传统规划器的严谨性

反思优化（Reflection & Refinement）

通过 “生成 - 反思 - 修正” 的迭代，让 LLM 从失败中学习，提升规划容错性

记忆增强（Memory-Augmented）

用额外记忆模块存储常识、历史经验等，检索辅助规划，提升连续性与适应性

分为

RAG-based 记忆：外部存储，实时更新但依赖检索精度和 Embodied 记忆：参数微调，容量大但更新成本高

评估：如何衡量 LLM 智能体的规划能力？

主流测评方法

交互游戏环境

以 ALFWorld 为例：

在 ALFWorld 中，包含交互式文本世界环境，智能体需要在类似房间的场景中完成各种任务，如 “put some vase in safe”。在这些环境里，智能体面对的是丰富多样的元素和复杂的任务要求，通过统计智能体完成特定任务的成功率，能直观衡量其在复杂环境下规划行动步骤、应对各种情况并达成目标的能力。

交互检索环境

例如 HotPotQA、FEVER，可以测量agent信息检索与推理的规划能力

HotPotQA 是一个包含 113k 基于维基百科的问答对的数据集，其中的问题需要查找和推理多个支持性文件来回答，例如在回答问题时，智能体可能需要从多篇维基百科文章中提取关键信息，并进行综合推理才能得出答案。

交互编程环境

如 AgentBench、MiniWoB++，可以测量代码生成与问题解决的规划能力。

在 AgentBench 环境中，智能体需要通过与计算机交互，编写代码或指令来解决与操作系统、数据库等相关的问题。

实验结论

性能与成本正相关

反思（Reflexion）、多规划（CoT-SC）等方法虽提升成功率，但 Token 消耗更高（如 Reflexion 成本是 ReAct 的 2 倍）

少样本示例的重要性

零样本 CoT（Z-CoT）在复杂任务中性能骤降，少样本（F-CoT）能帮助 LLM 理解任务

ps：少样本：传统提示方式直接提供问题和答案，而思维链提示在问题与答案间插入多个中间推理步骤，帮助模型理解问题结构并逐步推导答案。少样本思维链则在此基础上，通过少量示例展示推理过程，引导 LLM 进行推理。

反思提升容错性

Reflexion 在 ALFWorld、ScienceWorld 等复杂任务中成功率显著高于 ReAct，证明 “错误修正” 的价值。

现存的核心挑战

论文在结尾指出当前 LLM 智能体规划存在 5 大核心挑战：

幻觉问题

LLM 易生成 “不存在的动作 / 物品”，导致规划不合理，需更强的事实约束；

规划可行性

LLM 基于统计学习生成规划，难以满足复杂束（如罕见场景的前置条件），需结合符号模型

规划效率

现有方法多 “贪心生成”，未考虑动作序列的效率（如路径最短、成本最低），需加效率评估模块

多模态反馈

LLM 擅长文本，但真实环境反馈含图像、音频等，需结合多模态 LLM

细粒度评估

现有基准多测 “最终成功率”，缺乏 “步骤级评估”，需设计更贴近真实场景的评估环境（如用 LLM 生成动态反馈）

论文地址：

http://arxiv.org/abs/2402.02716

北京朝阳AI社区

更多推荐

上下文工程驱动

但即便是最聪明的人，如果不清楚自己要做的事情的上下文，也很难给出令人满意的交付。两款产品可能在做完全相同的事情，一款给人感觉充满魔力，但另一款却像个廉价的演示品。技术术语的更迭，不仅是语言表达的更替，更代表着思维范式的转变。上下文工程这一新术语，之所以能引起业内共鸣，折射的是智能体复杂性的演化和应对策略的转变，是对现实中算法和工程挑战的一种集体回应，尤其是在垂直/领域的智能体。在大模型能力日益强大