介绍 τ-bench:一个评估语言智能体在真实场景中与人、工具、规则交互能力的新基准
近年来,基于大语言模型(LLM)的智能体(agent)在自动化任务处理方面展现出巨大潜力。然而,现有的评测基准大多聚焦于单轮指令执行或纯工具调用,很少涉及以及这些在实际应用中至关重要的能力。为了填补这一空白,来自 Sierra 的研究团队提出了(Tool-Agent-User Interaction Benchmark),一个专注于评估语言智能体在中与用户交互、使用工具并遵循领域规则能力的全新基准
介绍 τ-bench:一个评估语言智能体在真实场景中与人、工具、规则交互能力的新基准
近年来,基于大语言模型(LLM)的智能体(agent)在自动化任务处理方面展现出巨大潜力。然而,现有的评测基准大多聚焦于单轮指令执行或纯工具调用,很少涉及多轮人机交互、复杂领域规则遵循以及长期一致性这些在实际应用中至关重要的能力。
为了填补这一空白,来自 Sierra 的研究团队提出了 τ-bench(Tool-Agent-User Interaction Benchmark),一个专注于评估语言智能体在动态对话环境中与用户交互、使用工具并遵循领域规则能力的全新基准。
τ-bench 的核心设计
τ-bench 模拟了一个真实的客服对话场景,包含三个关键组成部分:
- 数据库与 API 工具:每个领域(如零售、航空)都有结构化的数据库和对应的读写 API,智能体需要通过调用这些工具来完成任务。
- 领域策略文档:智能体必须遵守一份详细的领域规则文档(如“每个订单只能修改一次”、“经济舱行李额度根据会员等级变化”等)。
- 用户模拟器:使用 LLM(如 GPT-4)模拟真实用户的对话行为,用户会逐步提出需求,智能体需通过多轮对话收集信息、确认意图并执行操作。
每个任务被建模为一个部分可观测马尔可夫决策过程(POMDP),智能体需要在不确定的环境中逐步推理并行动。
评测方式与创新指标
τ-bench 采用了一种高效且忠实的评估方法:通过比对对话结束后的数据库状态与标注的“目标状态”来判断任务是否成功。这种基于状态的评估方式避免了主观判断,同时允许对话路径的多样性。
此外,论文提出了一个新的评估指标:pass^k(读作“pass hat k”),用于衡量智能体在 k 次独立重复执行同一任务时的一致性。与传统的 pass@k
(至少一次成功)不同,pass^k
要求每次都必须成功,更能反映智能体在真实服务场景中的可靠性。
实验结果与发现
作者测试了包括 GPT-4o、Claude-3、Gemini、Llama-3 等在内的多个主流模型,并比较了函数调用(Function Calling)、ReAct 等不同智能体构建方法。主要发现如下:
- 即使最强模型也表现不佳:在 τ-retail 任务上,GPT-4o 的成功率仅为 61.2%,在更复杂的 τ-airline 任务上更是降至 35.2%。
- 一致性严重不足:GPT-4o 在 τ-retail 上的
pass^8
值低于 25%,说明同一任务重复执行时成功率急剧下降。 - 三大失败类型:
- 参数错误或信息错误(55%):智能体难以在复杂数据库中进行准确推理。
- 决策错误(25%):未能正确理解或遵循领域规则。
- 复合请求处理不完整(19%):在多个用户请求中遗漏部分任务。
为什么 τ-bench 重要?
- 更贴近现实的评估场景:首次将工具调用、用户交互与规则遵循三者结合,逼真模拟真实客服流程。
- 强调一致性与可靠性:引入
pass^k
指标,推动研究社区关注智能体的“稳定性”而非单次表现。 - 模块化与可扩展:代码开源,支持社区扩展新领域(如医疗、法律、税务等)。
- 揭示当前模型的短板:实验结果表明,即使是最先进的模型,在复杂交互与规则理解方面仍有很大提升空间。
未来方向
τ-bench 为智能体研究提供了新的挑战和方向,包括:
- 提升智能体对复杂数据库的推理能力;
- 增强对领域规则的理解与遵循;
- 改进长上下文记忆与多轮意图跟踪;
- 开发更鲁棒、一致的交互策略。
τ-bench 不仅是一个评测工具,更是一个推动语言智能体向“实用化”、“可靠化”迈进的重要里程碑。如果你对构建或评估下一代语言智能体感兴趣,不妨关注这个项目,甚至参与其中!
🔗 项目地址:https://github.com/sierra-research/tau-bench
📄 论文链接:https://arxiv.org/abs/2406.12045

为武汉地区的开发者提供学习、交流和合作的平台。社区聚集了众多技术爱好者和专业人士,涵盖了多个领域,包括人工智能、大数据、云计算、区块链等。社区定期举办技术分享、培训和活动,为开发者提供更多的学习和交流机会。
更多推荐
所有评论(0)