PLAN-AND-ACT: Improving Planning of Agents for Long-Horizon Tasks 论文框架归纳
课程作业理解,仅自留使用,欢迎讨论。
研究背景
LLM 智能体的现状
大型语言模型(LLMs)在简单任务中表现出色,能驱动语言智能体与环境交互,但在复杂、多步骤的长时程任务(如网页导航、设备控制)中存在显著短板。
核心挑战
现有方法存在两大关键问题。一是单模型需同时处理高层规划与低层执行,导致 “认知负载过载”,易偏离任务目标;二是 LLM 未针对规划任务训练,且高质量规划训练数据稀缺,难以生成准确、可落地的任务规划。
现有方案局限
部分方法采用强化学习(RL)优化,但存在不稳定性与超参数敏感问题;分层规划框架(如 WebPilot、AgentOccam)依赖闭源模型(如 GPT-4o)且无系统的训练数据生成方案,可扩展性差。
PLAN-AND-ACT 框架设计
PLANNER(规划器)
将用户目标拆解为结构化、高层级的步骤,支持动态调整
EXECUTOR(执行器)
EXECUTOR 是一个LLM Agent,从 PLANNER 获取计划并在环境中运行。它负责调用工具,检索数据,或者对计划所需的环境做出改变。执行一个动作后,EXECUTOR执行垃圾收集,在执行下一个动作之前删除不必要的数据。
动态重规划(Dynamic Replanning)
EXECUTOR在规划时刻无法正确处理先验未知的内容。此外,静态计划可能会出现意想不到的失败问题,为了解决而引入了动态重规划,每执行一步动作后,PLANNER 结合当前环境状态、历史规划与动作,生成新规划(如搜索无结果时调整查询关键词),无需额外记忆模块即可维持长时程任务连贯性。
思维链推理(Chain-of-Thought, CoT)
在 PLANNER 生成规划、EXECUTOR 生成动作前,先输出中间推理轨迹(如 “因当前在 OpenStreetMap 首页,需先点击方向图标开启导航”),提升决策准确性,实验显示 70B 模型结合 CoT 后性能提升 4.36%。
合成数据生成方案
动作轨迹生成(Action Trajectory Generation)
基于 Alpaca 风格数据生成逻辑,以现有用户查询为种子,用 Teacher LLM 生成新查询;由演示智能体在环境中执行查询并记录轨迹;通过结果监督奖励模型(ORM)筛选成功轨迹(如网页导航中 “获取邮编” 的完整点击 / 输入序列)。
接地规划生成(Grounded Plan Generation)
利用 LLM 的上下文学习能力,对成功轨迹进行 “逆向工程”—— 输入轨迹(如 “搜索→点击→输出邮编”),让 Teacher LLM 生成对应的高层规划,并标注 “规划步骤与轨迹动作的映射关系”(如 “步骤 1 对应动作 1-2”),确保规划与实际执行对齐。
规划扩展(Synthetic Plan Expansion)
解决 “轨迹生成耗时、规划数据量不足” 问题。以现有 “查询 - 规划” 对为种子,用 Teacher LLM 生成 10,000 条多样化查询 - 规划对;结合模型失败分析,针对薄弱任务(如 “动态内容分析”)生成 5,000 条靶向数据,缓解过拟合并提升泛化性。
其他
WebArena 构建了包含电商、论坛、GitHub、CMS 等四类网站类型的仿真网站,使用网站真实数据来构建模拟环境。
其测试数据主要包括以下几部分:
High Level 任务指令:包含数据查询、网站导航、内容创建等 3 个主要任务意图,例如 “create a {{site1}} account identical to my {{site2}} one”。
测试样本:由人工和 ChatGPT 构建,从 241 个任务模板中创建出 812 个测试样本。
网页数据:包括 HTML、DOM、截图和 Accessibility Tree(DOM 的有效子集)。
更多推荐
所有评论(0)