LLM-agent 的 Planning 综述
本文为作者阅读论文 Understanding the planning of LLM agents: A survey 的论文理解,仅自留使用,欢迎交流。
论文遵循 “引言→分类→分方向详解→评估→挑战与总结” 的经典综述结构
引言
规划是智能体的核心之一。
传统工作主要依赖于符号方法或基于强化学习的方法,符号化方法需要将灵活的自然语言描述的问题转换为符号化建模,通常,这种方法缺乏错误容忍度,导致即使只有少数错误也会导致失败。RL算法通常需要大量的样本来学习有效的策略,但在收集数据耗时或昂贵的场景中,这是不切实际的或成本高昂的。
大型语言模型(LLM)的出现标志着方法的转变。LLM 具备强大的推理、工具使用、指令跟随能力,可作为智能体的 “认知核心”,弥补传统方法的局限。因此基于 LLM 的智能体的规划能力有着很大潜力。
LLM 智能体规划的 5 大方向及其优缺点
任务分解(Task Decomposition)
类似分治的思想,将复杂多步任务拆分为简单子任务,降低规划难度
例如CoT
多规划选择(Multi-Plan Selection)
生成多个候选规划,通过搜索算法选最优,避免单规划的次优 / 不可行问题
例如ToT(思维树):结合广度优先搜索(BFS)、深度优先搜索(DFS)等搜索算法,持续探索状态直到达到最终步骤
优缺点
优势是探索更全面,但缺点是多规划生成需更多 Token,计算成本高,且依赖 LLM 的评估能力,存在随机性。
## 外部规划器辅助(External Planner-Aided)
让 LLM 负责 “任务形式化”,外部规划器负责 “高效生成可行规划”,兼顾 LLM 的语义理解与传统规划器的严谨性
反思优化(Reflection & Refinement)
通过 “生成 - 反思 - 修正” 的迭代,让 LLM 从失败中学习,提升规划容错性
记忆增强(Memory-Augmented)
用额外记忆模块存储常识、历史经验等,检索辅助规划,提升连续性与适应性
分为
RAG-based 记忆:外部存储,实时更新但依赖检索精度和 Embodied 记忆:参数微调,容量大但更新成本高
评估:如何衡量 LLM 智能体的规划能力?
主流测评方法
交互游戏环境
以 ALFWorld 为例:
在 ALFWorld 中,包含交互式文本世界环境,智能体需要在类似房间的场景中完成各种任务,如 “put some vase in safe”。在这些环境里,智能体面对的是丰富多样的元素和复杂的任务要求,通过统计智能体完成特定任务的成功率,能直观衡量其在复杂环境下规划行动步骤、应对各种情况并达成目标的能力。
交互检索环境
例如 HotPotQA、FEVER,可以测量agent信息检索与推理的规划能力
HotPotQA 是一个包含 113k 基于维基百科的问答对的数据集,其中的问题需要查找和推理多个支持性文件来回答 ,例如在回答问题时,智能体可能需要从多篇维基百科文章中提取关键信息,并进行综合推理才能得出答案。
交互编程环境
如 AgentBench、MiniWoB++,可以测量代码生成与问题解决的规划能力。
在 AgentBench 环境中,智能体需要通过与计算机交互,编写代码或指令来解决与操作系统、数据库等相关的问题。
实验结论
性能与成本正相关
反思(Reflexion)、多规划(CoT-SC)等方法虽提升成功率,但 Token 消耗更高(如 Reflexion 成本是 ReAct 的 2 倍)
少样本示例的重要性
零样本 CoT(Z-CoT)在复杂任务中性能骤降,少样本(F-CoT)能帮助 LLM 理解任务
ps:少样本:传统提示方式直接提供问题和答案,而思维链提示在问题与答案间插入多个中间推理步骤,帮助模型理解问题结构并逐步推导答案。少样本思维链则在此基础上,通过少量示例展示推理过程,引导 LLM 进行推理。
反思提升容错性
Reflexion 在 ALFWorld、ScienceWorld 等复杂任务中成功率显著高于 ReAct,证明 “错误修正” 的价值。
现存的核心挑战
论文在结尾指出当前 LLM 智能体规划存在 5 大核心挑战:
幻觉问题
LLM 易生成 “不存在的动作 / 物品”,导致规划不合理,需更强的事实约束;
规划可行性
LLM 基于统计学习生成规划,难以满足复杂束(如罕见场景的前置条件),需结合符号模型
规划效率
现有方法多 “贪心生成”,未考虑动作序列的效率(如路径最短、成本最低),需加效率评估模块
多模态反馈
LLM 擅长文本,但真实环境反馈含图像、音频等,需结合多模态 LLM
细粒度评估
现有基准多测 “最终成功率”,缺乏 “步骤级评估”,需设计更贴近真实场景的评估环境(如用 LLM 生成动态反馈)
论文地址:
更多推荐
所有评论(0)