阿里：agent环境构建与经验学习

如何通过环境构建和代理经验学习来推动通用代理智能的发展？论文提出了一个系统性的方法，结合环境扩展和代理经验学习，以提升语言代理的能力，达到更高的智能表现。

大模型任我行

326人浏览 · 2025-09-20 10:00:00

大模型任我行 · 2025-09-20 10:00:00 发布

在这里插入图片描述

📖标题：Towards General Agentic Intelligence via Environment Scaling
🌐来源：arXiv, 2509.13311

🌟摘要

高级代理智能是在实际应用中部署大型语言模型的先决条件。不同的现实世界 API 需要精确、健壮的函数调用智能，这需要代理通过不同环境中的交互来开发这些功能。函数调用能力的广度与训练代理的环境的多样性密切相关。在这项工作中，我们将环境扩展到推进通用代理智能的步骤。这带来了两个中心挑战：（i）如何以有原则的方式缩放环境，以及（ii）如何从与这些环境的交互得出的经验中有效地训练代理能力。为了解决这些问题，我们设计了一个可扩展的框架，该框架自动构建完全模拟的异构环境，系统地扩大了函数调用场景的空间。我们进一步调整了两阶段代理微调策略：首先赋予代理基本代理能力，然后将它们专门用于特定领域的上下文。在代理基准 τ-bench、τ2-Bench 和 ACEBench 上的大量实验表明，我们训练的模型 AgentScaler 显着提高了模型的功能调用能力。项目在https://github.com/Alibaba-NLP/DeepResearch

🛎️文章简介

🔸研究问题：如何通过环境构建和代理经验学习来推动通用代理智能的发展？
🔸主要贡献：论文提出了一个系统性的方法，结合环境扩展和代理经验学习，以提升语言代理的能力，达到更高的智能表现。

📝重点思路

🔸采用两阶段的代理经验学习框架：第一阶段训练代理在通用领域的基本工具调用能力，第二阶段在特定领域的上下文中进一步培训，以增强代理能力。
🔸构建了代理任务，通过模拟人机交互方式生成有效的代理经验轨迹，并实施严格的数据过滤。
🔸通过使用工具依赖图建模和函数模式编程材料化，将工具和数据库结构紧密结合，实现环境的自动构建。
🔸利用人机交互收集经验轨迹，并对这些轨迹进行多层次的验证和过滤，以确保收集数据的有效性和可靠性。

🔎分析总结

🔸实验结果表明，在多个基准测试（如τ-bench、τ²-Bench和ACEBench）上，AgentScaler系列模型在性能上超越了其他开放源模型，其表现接近更大规模的闭源模型。
🔸通过两阶段培训框架，模型的工具使用能力和任务适应性得到了显著提高，尤其是在特定领域的应用中表现出更强的竞争力。
🔸研究还揭示了工具调用的长期挑战，其中代理模型的任务准确性与工具调用数量之间存在负相关关系，表明延伸的工具使用链仍是一个待解决的问题。

💡个人观点

论文结合环境构建与代理经验学习，使得模型在保持较小参数量的同时，仍能实现高效的代理能力。

🧩附录

在这里插入图片描述

北京朝阳AI社区

更多推荐

【AcFun视频下载的多种实用方法详解】,第938章

大模型时代的上下文工程：让AI更懂你-摘要

北京朝阳AI社区

制造行业Agentic AI转型：提示工程架构师如何设计智能产线调度代理

产线调度：对制造资源（设备、人力、物料、时间）进行分配，以实现“按时、按质、低成本”生产的决策过程。本质是“约束条件下的多目标优化”。Agentic AI：具备“感知-决策-执行-学习”闭环能力的智能体（Agent），能自主处理动态任务，适配环境变化。提示工程架构师：连接“制造知识”与“AI技术”的桥梁——将制造流程的规则、约束、目标转化为AI能理解的“提示（Prompt）”，让智能体做出符合场景