在这里插入图片描述

📖标题:Towards General Agentic Intelligence via Environment Scaling
🌐来源:arXiv, 2509.13311

🌟摘要

高级代理智能是在实际应用中部署大型语言模型的先决条件。不同的现实世界 API 需要精确、健壮的函数调用智能,这需要代理通过不同环境中的交互来开发这些功能。函数调用能力的广度与训练代理的环境的多样性密切相关。在这项工作中,我们将环境扩展到推进通用代理智能的步骤。这带来了两个中心挑战:(i)如何以有原则的方式缩放环境,以及(ii)如何从与这些环境的交互得出的经验中有效地训练代理能力。为了解决这些问题,我们设计了一个可扩展的框架,该框架自动构建完全模拟的异构环境,系统地扩大了函数调用场景的空间。我们进一步调整了两阶段代理微调策略:首先赋予代理基本代理能力,然后将它们专门用于特定领域的上下文。在代理基准 τ-bench、τ2-Bench 和 ACEBench 上的大量实验表明,我们训练的模型 AgentScaler 显着提高了模型的功能调用能力。项目在https://github.com/Alibaba-NLP/DeepResearch

🛎️文章简介

🔸研究问题:如何通过环境构建和代理经验学习来推动通用代理智能的发展?
🔸主要贡献:论文提出了一个系统性的方法,结合环境扩展和代理经验学习,以提升语言代理的能力,达到更高的智能表现。

📝重点思路

🔸采用两阶段的代理经验学习框架:第一阶段训练代理在通用领域的基本工具调用能力,第二阶段在特定领域的上下文中进一步培训,以增强代理能力。
🔸构建了代理任务,通过模拟人机交互方式生成有效的代理经验轨迹,并实施严格的数据过滤。
🔸通过使用工具依赖图建模和函数模式编程材料化,将工具和数据库结构紧密结合,实现环境的自动构建。
🔸利用人机交互收集经验轨迹,并对这些轨迹进行多层次的验证和过滤,以确保收集数据的有效性和可靠性。

🔎分析总结

🔸实验结果表明,在多个基准测试(如τ-bench、τ²-Bench和ACEBench)上,AgentScaler系列模型在性能上超越了其他开放源模型,其表现接近更大规模的闭源模型。
🔸通过两阶段培训框架,模型的工具使用能力和任务适应性得到了显著提高,尤其是在特定领域的应用中表现出更强的竞争力。
🔸研究还揭示了工具调用的长期挑战,其中代理模型的任务准确性与工具调用数量之间存在负相关关系,表明延伸的工具使用链仍是一个待解决的问题。

💡个人观点

论文结合环境构建与代理经验学习,使得模型在保持较小参数量的同时,仍能实现高效的代理能力。

🧩附录

在这里插入图片描述
在这里插入图片描述

Logo

更多推荐