大模型不会用工具？人大Tool-Light：不存在的！

在十个具有挑战性的数据集上的测试结果充分说明了 Tool-Light 的有效性，它能够显著提高模型执行 TIR 任务的效率。

菜鸟Java码农

486人浏览 · 2025-10-07 22:25:03

菜鸟Java码农 · 2025-10-07 22:25:03 发布

大语言模型（LLM）通过借助外部工具推理（TIR），能够完成许多超越自身固有知识和能力的任务。然而，未经专门训练的 LLM 在调用外部工具时，往往会出现许多次优行为。如何让 LLM 高效准确地完成 TIR 任务仍是一个开放性的挑战。为了解决这一问题，人大提出了Tool-Light，这是一个旨在鼓励 LLMs 高效准确地执行 TIR 任务的框架。在十个具有挑战性的数据集上的测试结果充分说明了 Tool-Light 的有效性，它能够显著提高模型执行 TIR 任务的效率。

论文标题：Towards Effective Tool-Integrated Reasoning via Self-Evolved Preference Learning
论文链接：https://arxiv.org/pdf/2509.23285v2
代码仓库：https://github.com/asilverlight/Tool-Light
开源模型：https://huggingface.co/zhangboguodong/Tool-Light-Qwen2.5-7B-it

前置实验：揭示工具调用和信息熵的关系

受到一些已有工作的启发，我们首先从信息熵的角度，对 TIR 这一任务进行了初步分析。我们发现：

Tool-Light前置实验

当模型接收到工具调用结果时，其输出信息熵会先上升，然后波动，并在下一次工具调用到来之前急剧下降。
对于同一样本，低熵链的工具调用次数往往更少，并且随着推理的进行，这种特性变得越来越明显。

基于这一特性，我们特别设计了数据采样方法以及筛选方法，致力于获得高质量的训练数据。

Tool-Light：借助自进化的偏好学习引导模型高效完成 TIR 任务

我们提出了 Tool-Light 框架。这是一个面向检索和代码执行工具，从数据端和算法端两个方面，充分优化模型执行 TIR 任务行为的框架。具体来说，我们的贡献如下：

我们首次从信息熵的角度分析了 TIR 这一范式，并基于信息熵提出了一种高效的数据采样方法。该方法仅在推理链路的高熵位置进行采样，能够在降低推理成本的同时获得高质量的训练数据。
我们提出了一种两阶段的 TIR 训练流程，包括 SFT 和自进化的 DPO 训练。其中我们将第二阶段分为了预对齐的 DPO 训练和自进化的 DPO 对齐两个部分。该方法将数据采样和训练过程交替进行，逐步有针对性地提升模型的能力。
我们在十个具有挑战性的数据集（包括数学推理任务和实体检索任务）上测试了训练后模型的性能，结果显示在 Tool-Light 框架下训练的模型能够更加高效准确地完成 TIR 任务。

熵引导的采样策略

熵采样

我们设计了两种采样策略，一种是直接采样，即针对某个问题从头采样出多条推理链路。另一种是熵引导的采样策略。这种方法的流程如下：

针对每个问题，执行一次 TIR 过程获得一条推理链路。
计算该链路中，每次获取完工具执行结果后，推理部分的前10、20、30、40、50个 token 的熵值。
取整条链路中熵值最大的k个位置，然后在这些位置上接续进行重复采样，获得多条推理链路。

这种方法能够保证采样的多样性，同时能够降低推理成本，将原来的线性级别推理成本降低为对数级别推理成本。

两阶段的 TIR 训练流程

我们的训练流程一共有两个阶段，包括一个 SFT 阶段以及一个自进化的 DPO 训练阶段。其中自进化的 DPO 训练阶段又分为一次预对齐的 DPO 训练以及若干轮自进化的 DPO 对齐。

两阶段训练流程

首先，我们精心构造出数据源，并在此基础上执行 SFT 训练，得到训练好的模型。随后进行预对齐的 DPO 训练，我们使用，基于前述两种采样策略对重新进行采样，并设计了如下的准则1来筛选出 DPO 训练数据：

区分难易样本：
- 困难样本：正确轨迹数量小于等于50%的样本
- 简单样本：正确轨迹数量大于50%的样本
区分正负样本：
- 正样本：具有最少工具调用次数和最低熵的正确轨迹
- 负样本：工具调用次数多于正样本的错误轨迹

使用采好的 DPO 数据再次训练，得到。随后进行多轮自进化的 DPO 对齐。我们使用再次采样，并设计了如下的准则2来筛选出 DPO 对齐数据：

困难样本：
- 正样本：推理链路最长的正确轨迹
- 负样本：推理链路最短的错误轨迹
简单样本：
- 负样本：工具调用次数最多的错误轨迹
- 正样本：工具调用次数少于负样本且熵最低的正确轨迹

我们交替进行数据采样和自进化 DPO 对齐，直到模型收敛，得到最终训练好的模型。

在困难推理任务上的实验结果

实验结果

为了充分评估 Tool-Light 框架的有效性，我们选取了十个具有挑战性的困难推理任务，包括数学推理任务（AIME24、AIME25、AMC23、MATH、MATH500、GSM8K）和实体检索任务（HotpotQA、2WikiMultiHopQA、MuSiQue、Bamboogle）。

从实验结果可以发现：

外部工具带来的帮助：相较于直接推理的方法，引入外部工具整体上看会给模型性能带来较大提升，但未经训练的模型无法很好地利用外部工具。
训练对 TIR 任务至关重要：训练后的模型在专业领域任务上的能力得到了很大提升，但仅针对专一任务进行训练可能会降低模型在其他任务上的泛化性。
高效准确使用工具的重要性：Tool-Light 框架在提升模型的 TIR 能力之外，还教会了模型高效合理地使用工具进行推理。相较于已有 Baseline 方法，在Tool-Light 框架下训练的模型性能又有了一个提升。

实验结果