阿里：智能体连贯交错工具规划评测

多模态大模型如何在图文交错生成任务中，自主规划何时、何地及调用何种工具以统一事实性与创造性？论文提出了智能体工具规划新范式，构建了首个支持混合图像来源的 ATP-Bench 基准及无需真值的多智能体评估系统 MAM。

大模型任我行

211人浏览 · 2026-04-18 08:00:00

大模型任我行 · 2026-04-18 08:00:00 发布

在这里插入图片描述

📖标题：ATP-Bench: Towards Agentic Tool Planning for MLLM Interleaved Generation
🌐来源：arXiv, 2603.29902v1

🌟摘要

文本和图像的交错生成是多模态大型语言模型（MLLM）的一个重要前沿，它提供了一种更直观的方式来传达复杂的信息。当前的范式依赖于图像生成或检索增强，但它们通常将两者视为相互排斥的路径，未能将真实性与创造性统一起来。我们认为，该领域的下一个里程碑是简化工具规划，该模型作为一个中央控制器，自主决定何时，何地，以及调用哪些工具来产生视觉关键查询的交错响应。为了系统地评估这种范式，我们引入了ATP-Bench，一个由7，702个QA对组成的新基准（包括1，592个VQA对），涉及8个类别和25个视觉关键意图，具有人工验证的查询和地面事实。此外，为了独立于端到端执行和改变工具后端来评估代理计划，我们提出了一个多代理MLLM作为判断（MAM）系统。MAM评估工具调用精度，识别错过的工具使用机会，我们对10个最先进的MLLM进行了广泛的实验，结果表明，模型难以进行连贯的交错规划，并且在工具使用行为方面表现出显著的变化，突出了改进的巨大空间，并为推进交错生成提供了可操作的指导。

🛎️文章简介

🔸研究问题：多模态大模型如何在图文交错生成任务中，自主规划何时、何地及调用何种工具以统一事实性与创造性？
🔸主要贡献：提出了智能体工具规划新范式，构建了首个支持混合图像来源的 ATP-Bench 基准及无需真值的多智能体评估系统 MAM。

📝重点思路

🔸定义智能体工具规划范式，将模型视为中央控制器，自主决定调用引用、扩散生成、搜索、代码绘图及编辑等五类工具来生成交错响应。
🔸构建 ATP-Bench 基准，包含 7702 个问答对，覆盖八类视觉关键场景，采用专家标注确保查询与真值的高质量及视觉必要性。
🔸设计多智能体裁判系统 MAM，由精度检查员评估工具调用必要性及参数正确性，召回检查员识别遗漏的视觉机会，主裁判综合打分。
🔸实施无需端到端执行且独立于具体工具后端的评估策略，通过多智能体协作量化模型的规划能力而非仅仅关注最终生成结果。

🔎分析总结

🔸实验显示现有顶尖模型在连贯的交错工具规划上仍存在困难，尤其在旅行和装修等复杂场景中表现不佳。
🔸Gemini 3 Pro 在各项指标中领先，展现出平衡的工具使用策略，而其他模型在工具调用频率和偏好上存在显著差异。
🔸学术和百科类任务相对简单，而需要复杂工具协调的旅行规划任务最难，主要失败原因在于未能识别工具使用机会。
🔸开源模型整体表现较弱，常出现格式错误或无效调用，表明其在视觉差距检测和有效工具执行方面存在复合缺陷。
🔸少样本提示能显著提升具备指令遵循能力模型的表现，但无法弥补基础规划能力薄弱模型的核心缺陷。