大模型微调实战教程（二）：LLaMA-Factory 实战，从零开始构建微调数据集与模型评估体系

2025 年想抓住 AI 大模型的风口？别犹豫，这份免费资料就是你的 “起跑线”！

AI小白龙*

750人浏览 · 2025-09-11 10:19:41

AI小白龙* · 2025-09-11 10:19:41 发布

在前面的文章中，我们详细探讨了 LLaMA-Factory 的各项核心配置参数。本文将在此基础上，深入实践如何构建自定义的微调数据集，并进一步探究 LLaMA-Factory 中的模型评估策略。这篇文章，作者将结合实际操作，构建微调数据集与模型评估体系。

一、利用 Easy Dataset 构建高质量微调数据集

构建高质量的微调数据集是提升模型性能的关键一步。LLaMA-Factory 官方推荐了 Easy Dataset 和 GraphGen 两款工具。考虑到 Easy Dataset 的本土化优势及其日益活跃的社区生态，我们选择 Easy Dataset 作为本次数据集构建的工具。

1. Easy Dataset 简介与工具选择

Easy Dataset 是一款由国内开发者构建的 LLM 数据生成工具，它通过 LLM 生成问答对来构建数据集。相比之下，GraphGen 则结合了 LLM 和知识图谱。在实际应用中，Easy Dataset 的便捷性和良好的社区支持使其成为更优选择。

Easy Dataset 项目地址： https://github.com/ConardLi/easy-dataset

Easy Dataset 文档地址： https://docs.easy-dataset.com

2. 工具下载与启动

Easy Dataset 提供了多种部署方式，包括安装包下载、Docker 部署和源码运行。对于非开发者，直接下载安装包即可快速上手。对于开发者，推荐使用源码运行方式，具体步骤如下：

克隆仓库：

git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset

2. 安装依赖：

pnpm i

3. 启动服务：

pnpm build
pnpm start

服务启动后，在浏览器中访问 http://localhost:1717 即可进入项目主页。

3. 数据集构建流程详解

启动 Easy Dataset 后，即可开始构建您的专属数据集：

3.1 创建项目

首先，在 Easy Dataset 界面中创建一个新项目，作为您数据集的容器。

3.2 配置模型

Easy Dataset 支持 Ollama、GPT、硅基等多种平台。本文以硅基平台的 API 配置为例。完成模型配置后，请确保在右上角选择您已配置的模型。

3.3 上传文件与解析

在文献处理环节，如果您需要上传 PDF 文件，Easy Dataset 提供了两种解析方式：自带解析或 MinerU API 解析。值得注意的是，MinerU 的解析效果通常优于内置解析。因此，我们强烈建议您先使用 MinerU 将 PDF 文件解析为 Markdown（.md）格式，然后再直接上传 Markdown 文件，这样可以省去二次解析的步骤。

3.4 自动提取问题

文件解析完成后，您可以全选所有文本块，然后选择“自动提取问题”或“批量生成问题”。两者的主要区别在于执行方式：

自动提取问题（后台执行）： 推荐使用此选项，它会在后台运行，您可以在此期间切换到其他标签页进行操作，而不会中断任务。
批量生成问题（前台执行）： 此选项会在前台执行，这意味着在生成过程中您无法切换标签页，否则任务将会中断。

3.5 自动生成数据集

问题提取完毕后，选择“自动生成数据集”。系统将自动调用您当前设置的 LLM 模型，为每个问题生成对应的答案和思维链（Chain of Thought）。数据集生成完成后，您可以直接预览并进行二次编辑。

3.6 导出数据集

完成数据集的生成和审阅后，全选所有数据集并点击“导出数据集”，系统会自动下载一个格式化的 JSON 文件。默认的数据集格式为 Alpaca 格式。

我在初期尝试配置 DeepSeek-R1 满血版处理一篇 5 页论文时，成本约为 3.43 元，相对较高。硅基平台也提供了免费的低参数量模型。我尝试了 DeepSeek-R1-0528-Qwen3-8B 模型，发现其生成的数据集效果同样令人满意，并且实现了零成本“白嫖”！

4. 数据集导入 LLaMA-Factory 进行微调

成功导出数据集后，下一步就是将其导入 LLaMA-Factory 进行微调。

将下载好的 JSON 格式数据集放置到 LLaMA-Factory/data 目录下。然后，修改 dataset_info.json 文件，增加一个新的数据集字典，例如：

"mydataset": {
  "file_name": "datasets-Go2iBai0iQAS-alpaca.json"
}

请注意，file_name 字段应与您实际下载的数据集文件名保持一致。

完成配置后，启动 LLaMA-Factory 的 Web UI：

llamafactory-cli webui

此时，您就可以在 LLaMA-Factory 中选择并使用您刚刚构建的数据集了。需要注意的是，数据集文件并非强制要求放置在 data 目录下，只要在 dataset_info.json 中正确指定文件路径和名称即可。

二、LLaMA-Factory 中的模型评估体系深度解析

找到了最优的模型训练策略后，要如何科学地评估模型性能呢？这可以分解为三个核心子问题：评估标准是什么？如何进行模型评估？如何利用公开数据集进行评估？本文将围绕这三个问题展开深入探讨。

1. 模型评估标准

评估模型性能有多种标准。以 DeepSeek-R1 论文为例，其主要采用了以下三个评估标准：

Pass@1： 表示模型在第一次尝试中正确解决问题的概率。
Cons@64： 表示模型在多次尝试（例如 64 次）中一致解决问题的概率。
Rating： 该平台上的评分或排名，用于衡量模型在编程竞赛中的表现。

然而，根据 LLaMA-Factory 的文档，它并不直接支持上述评估指标，而是采用了以下更通用的性能和速度指标：

1.1 性能指标

BLEU-4： BLEU（Bilingual Evaluation Understudy）是一种常用的机器翻译质量评估指标。BLEU-4 表示四元语法 BLEU 分数，衡量模型生成文本与参考文本之间的 N-gram 匹配程度，其中 N=4。值越高表示生成的文本与参考文本越相似，最大值为 100。
ROUGE-1/ROUGE-2： ROUGE（Recall-Oriented Understudy for Gisting Evaluation）用于评估自动摘要和文本生成模型性能。ROUGE-1 表示一元 ROUGE 分数，ROUGE-2 表示二元 ROUGE 分数，分别衡量模型生成文本与参考文本之间的单个词和双词序列的匹配程度。值越高表示生成的文本与参考文本越相似，最大值为 100。
ROUGE-L： ROUGE-L 衡量模型生成文本与参考文本之间最长公共子序列（Longest Common Subsequence）的匹配程度。值越高表示生成的文本与参考文本越相似，最大值为 100。

1.2 速度指标

Runtime： 预测运行时间，表示模型生成一批样本所花费的总时间，单位通常为秒。
Samples_per_second： 每秒生成的样本数量，用于评估模型的推理速度。
Steps_per_second： 每秒执行的步骤数量，对于生成模型，通常指每秒执行生成操作的次数。

2. LLaMA-Factory 中的模型评估操作

在 LLaMA-Factory 的 Web UI 中，您可以在“Evaluate & Predict”菜单中直接进行模型评估。评估和预测过程是同步进行的，因为需要先通过预测得到模型推理结果，然后才能与真实标签（ground truth）进行比较。如果您不需要保存预测结果，可以取消勾选“保存预测结果”选项（默认开启）。

选择好评测数据集后，您可以设置截断长度（Truncation Length）和最大生成长度（Max Generation Length）。

截断长度： 指模型处理文本时能接收的最大 Token 数量。如果数据集的输入较长，模型会进行截断。默认值为 1024，您可以根据实际数据集的效果适当增大此值。
最大生成长度： 指模型输出的最大 Token 数量。默认值为 512，在某些场景下可能偏小，也可以适当调大。

完成设置后，评估过程将自动开始，评估结果将保存在输出目录下的 eval_results.json 文件中。

3. 利用公开数据集进行评估（以 MATH-500 为例）

上述评估方法主要基于 Alpaca 格式构建的数据集。下面我们以 MATH-500 公开数据集为例，演示如何在标准公开数据集上进行模型评估。

3.1 下载 MATH-500 数据集

首先，您需要使用 Git LFS 下载数据集。

1.安装 Git LFS：

git lfs install

2.下载数据集仓库：

git clone https://huggingface.co/datasets/HuggingFaceH4/MATH-500

3.2 格式转换

MATH-500 数据集本身是 JSONL 格式，并且其字典键值与 Alpaca 标准不对应，这会导致 LLaMA-Factory 无法直接解析。因此，我们需要通过一个脚本进行格式转换：

import json

def convert_jsonl_to_alpaca(jsonl_path, output_json_path):
    alpaca_data = []

    with open(jsonl_path, encoding="utf-8") as infile:
        for line in infile:
            item = json.loads(line.strip())
            alpaca_item = {
                "instruction": "" + item.get("problem", ""),
                "input": "",
                "output": item.get("solution", ""),
            }
            alpaca_data.append(alpaca_item)

    with open(output_json_path, "w", encoding="utf-8") as outfile:
        json.dump(alpaca_data, outfile, ensure_ascii=False, indent=2)

    print(f"转换完成，保存到 {output_json_path}")

if __name__ == "__main__":
    # Convert the MATH-500 test data
    convert_jsonl_to_alpaca("eval_data/MATH-500_test.jsonl", "eval_data/math_500_alpaca_output.json")

转换完成后，您就可以按照之前文章所描述的方式，将转换后的数据集加载到 LLaMA-Factory 中，并执行模型评估了。

通过本文的详细讲解，我们就可以利用 Easy Dataset 构建微调数据集的方法，并对 LLaMA-Factory 中的模型评估体系有了清晰的认识。在实际操作中，不断尝试和优化数据集构建及评估策略，是提升大模型性能的关键。

想入门 AI 大模型却找不到清晰方向？备考大厂 AI 岗还在四处搜集零散资料？

别再浪费时间啦！2025 年 AI 大模型全套学习资料已整理完毕，从学习路线到面试真题，从工具教程到行业报告，一站式覆盖你的所有需求，现在全部免费分享！

👇👇扫码免费领取全部内容👇👇