PLAN-AND-ACT: Improving Planning of Agents for Long-Horizon Tasks 论文框架归纳

课程作业理解，仅自留使用，欢迎讨论。

吃饱了还能继续吃

773人浏览 · 2025-09-25 21:57:32

吃饱了还能继续吃 · 2025-09-25 21:57:32 发布

研究背景

LLM 智能体的现状

大型语言模型（LLMs）在简单任务中表现出色，能驱动语言智能体与环境交互，但在复杂、多步骤的长时程任务（如网页导航、设备控制）中存在显著短板。

核心挑战

现有方法存在两大关键问题。一是单模型需同时处理高层规划与低层执行，导致 “认知负载过载”，易偏离任务目标；二是 LLM 未针对规划任务训练，且高质量规划训练数据稀缺，难以生成准确、可落地的任务规划。

现有方案局限

部分方法采用强化学习（RL）优化，但存在不稳定性与超参数敏感问题；分层规划框架（如 WebPilot、AgentOccam）依赖闭源模型（如 GPT-4o）且无系统的训练数据生成方案，可扩展性差。

PLAN-AND-ACT 框架设计

PLANNER（规划器）

将用户目标拆解为结构化、高层级的步骤，支持动态调整

EXECUTOR（执行器）

EXECUTOR 是一个LLM Agent，从 PLANNER 获取计划并在环境中运行。它负责调用工具，检索数据，或者对计划所需的环境做出改变。执行一个动作后，EXECUTOR执行垃圾收集，在执行下一个动作之前删除不必要的数据。

动态重规划（Dynamic Replanning）

EXECUTOR在规划时刻无法正确处理先验未知的内容。此外，静态计划可能会出现意想不到的失败问题，为了解决而引入了动态重规划，每执行一步动作后，PLANNER 结合当前环境状态、历史规划与动作，生成新规划（如搜索无结果时调整查询关键词），无需额外记忆模块即可维持长时程任务连贯性。

思维链推理（Chain-of-Thought, CoT）

在 PLANNER 生成规划、EXECUTOR 生成动作前，先输出中间推理轨迹（如 “因当前在 OpenStreetMap 首页，需先点击方向图标开启导航”），提升决策准确性，实验显示 70B 模型结合 CoT 后性能提升 4.36%。

合成数据生成方案

动作轨迹生成（Action Trajectory Generation）

基于 Alpaca 风格数据生成逻辑，以现有用户查询为种子，用 Teacher LLM 生成新查询；由演示智能体在环境中执行查询并记录轨迹；通过结果监督奖励模型（ORM）筛选成功轨迹（如网页导航中 “获取邮编” 的完整点击 / 输入序列）。

接地规划生成（Grounded Plan Generation）

利用 LLM 的上下文学习能力，对成功轨迹进行 “逆向工程”—— 输入轨迹（如 “搜索→点击→输出邮编”），让 Teacher LLM 生成对应的高层规划，并标注 “规划步骤与轨迹动作的映射关系”（如 “步骤 1 对应动作 1-2”），确保规划与实际执行对齐。

规划扩展（Synthetic Plan Expansion）

解决 “轨迹生成耗时、规划数据量不足” 问题。以现有 “查询 - 规划” 对为种子，用 Teacher LLM 生成 10,000 条多样化查询 - 规划对；结合模型失败分析，针对薄弱任务（如 “动态内容分析”）生成 5,000 条靶向数据，缓解过拟合并提升泛化性。

其他

WebArena 构建了包含电商、论坛、GitHub、CMS 等四类网站类型的仿真网站，使用网站真实数据来构建模拟环境。

其测试数据主要包括以下几部分：

High Level 任务指令：包含数据查询、网站导航、内容创建等 3 个主要任务意图，例如 “create a {{site1}} account identical to my {{site2}} one”。

测试样本：由人工和 ChatGPT 构建，从 241 个任务模板中创建出 812 个测试样本。

网页数据：包括 HTML、DOM、截图和 Accessibility Tree（DOM 的有效子集）。

北京朝阳AI社区

更多推荐

Spring AI 1.0 正式发布，让 Java 再次伟大！

Spring AI 的第一个正式版本 1.0 正式发布了：Spring AI 是 Spring 生态中的一个新项目：Spring AI 不是 AI 大模型，它只是为 Java 集成各个大模型提供了一个抽象。Spring AI 的核心是解决 AI 集成的各种挑战，将企业数据和 API 与 AI 大模型联系起来，通过 Spring AI，我们可以在 Java/Spring 应用中更方便快捷地使用等功能

北京朝阳AI社区

大模型API成本太高？2025年AI原生应用模型部署降本方案，自建vs调用对比

在当今数字化浪潮中，AI原生应用如雨后春笋般涌现，从智能客服到内容创作辅助，大模型的强大能力为这些应用注入了无限活力。然而，许多开发者和企业却面临着一个棘手的问题——大模型API的成本高得惊人。想象一下，一家小型创业公司，满心欢喜地计划推出一款基于大模型的创新聊天应用，期望凭借其独特功能在市场上崭露头角。但当他们深入了解使用大模型API的成本后，却被每月动辄数万美元的费用泼了一盆冷水。这并非个例，