LlamaFactory：一站式大模型微调框架，统一LoRA、QLoRA与全量微调

大语言模型（LLM）微调是使通用模型适配特定领域任务的关键技术。其核心原理是通过在预训练模型的基础上，利用领域数据对模型参数进行有监督的更新，从而提升模型在目标场景下的性能。这项技术的核心价值在于，它能以相对较低的成本，将强大的基础模型能力快速迁移到客服、代码生成、内容创作等垂直应用中。当前，高效微调方法如LoRA和QLoRA已成为主流，它们通过冻结大部分原始参数、仅训练少量新增的适配器参数，实现

管老太

327人浏览 · 2026-05-17 15:23:22

管老太 · 2026-05-17 15:23:22 发布

1. 项目概述：一站式大模型微调框架的诞生

最近在折腾大模型微调的朋友，估计都经历过这样的场景：想试试LoRA，结果发现不同框架的接口天差地别；想对比一下QLoRA和全量微调的效果，得在两个完全不同的代码库里来回切换，光是环境配置就够喝一壶；好不容易跑起来了，又得自己写脚本去监控训练损失、评估指标，整个过程繁琐且容易出错。如果你也对这些痛点深有体会，那么今天聊的这个项目—— LlamaFactory ，绝对值得你花时间深入了解。

简单来说，LlamaFactory是一个 统一、高效、易用的大语言模型（LLM）微调框架 。它的核心目标，是把我们从上述那些重复、琐碎且容易踩坑的“脏活累活”中解放出来。无论你是想微调Llama 3、Qwen、ChatGLM还是其他任何主流开源模型，无论你倾向于使用LoRA、QLoRA、全量参数微调还是更新的技术如DoRA，LlamaFactory都试图提供一个“开箱即用”的解决方案。它把模型加载、数据预处理、训练循环、评估指标、乃至WebUI交互界面都封装好了，你只需要关心你的数据和任务本身。

我第一次接触它，是因为需要快速在几款不同架构的模型上验证同一个指令微调方案的效果。按照传统方式，我得为每个模型单独适配代码，过程极其痛苦。而LlamaFactory宣称的“统一接口”吸引了我。实际用下来，它的确做到了：通过一个配置文件，我就能在Llama、Mistral、Yi等模型上无缝切换训练，省去了大量适配工作。这对于研究者快速进行模型对比实验，或者开发者需要为不同场景部署定制化模型来说，效率提升是巨大的。

这个项目适合哪些人呢？我认为有三类：一是 算法工程师和研究员 ，需要快速进行微调实验和方法对比；二是 应用开发者 ，希望将开源大模型能力快速适配到自己的垂直领域（如客服、代码生成、内容创作）；三是 对大模型微调感兴趣的学习者 ，希望有一个低门槛、全流程的工具来上手实践，避免在环境配置和代码调试上浪费过多时间。

接下来，我将从设计思路、核心功能、实操细节到避坑经验，为你完整拆解LlamaFactory，让你不仅能用它，更能懂它。

2. 核心设计理念与架构解析

2.1 为什么需要“工厂”模式？

在深入代码之前，我们先理解LlamaFactory这个名字背后的设计哲学——“工厂”模式。在软件工程中，工厂模式的核心是 封装对象的创建过程 ，使用者无需关心对象的具体实现类，只需通过统一的接口获取所需产品。

将这一思想映射到大模型微调领域，痛点立刻清晰：每个模型家族（如Llama、GPT-NeoX、BLOOM）可能有不同的分词器（Tokenizer）、模型结构（如Attention实现、位置编码）、权重格式。直接使用Hugging Face的 transformers 库虽然通用，但针对特定优化（如FlashAttention-2、梯度检查点）和训练技巧（如LoRA目标模块选择）仍需大量手动适配。LlamaFactory做的就是这件事：它充当了一个“模型微调工厂”，你告诉它“我需要一个基于QLoRA的Llama 3 8B模型微调流水线”，它就能给你组装好一切。

这种设计带来了几个显著优势：

一致性 ：无论底层模型如何变化，上层的训练脚本、配置方式、评估流程保持高度一致。你的学习成本不会因为更换模型而陡增。
可维护性 ：新的模型、新的训练算法（如DoRA）可以以模块化的方式添加到“工厂”中，而不影响既有功能。
降低复杂度 ：用户无需深入每个模型的源码去了解如何正确加载、如何适配高效训练技巧。框架处理了这些复杂性。

2.2 核心架构模块拆解

LlamaFactory的代码结构清晰地反映了其模块化思想。我们来看几个核心模块：

1. 模型加载与适配层 ( src/llamafactory/model/ ) 这是框架的基石。它不仅仅是对 transformers.AutoModelForCausalLM 的简单包装。针对每个支持的模型（如 LlamaForCausalLM , Qwen2ForCausalLM ），框架都提供了一个 适配器 。这个适配器主要做三件事：

统一前向传播接口 ：确保不同模型在计算损失、生成输出时，接口一致。
自动化LoRA/QLoRA模块发现与注入 ：这是关键。不同模型的线性层、注意力层的命名和结构可能不同。适配器会智能地分析模型结构，找到所有适合添加LoRA适配器的模块（如 q_proj , k_proj , v_proj , o_proj , gate_proj , up_proj , down_proj 等），并为你自动注入。你无需手动指定 target_modules 。
集成优化技术 ：自动尝试启用FlashAttention-2（如果硬件和模型支持），配置梯度检查点（Gradient Checkpointing）以节省显存。

2. 数据处理器 ( src/llamafactory/data/ ) 微调的效果，一半取决于数据。LlamaFactory提供了强大的数据预处理管道。它支持多种对话模板（如 chatml , alpaca , sharegpt ），能将你的原始对话数据（JSON、JSONL等格式）自动转换成模型训练所需的tokenized序列。更重要的是，它实现了 动态长度批处理 。传统的批处理要求所有序列填充到同一长度，浪费大量计算在填充符（pad tokens）上。LlamaFactory使用 DataCollatorForSeq2Seq 或类似机制，在一个批次内，只对序列填充到该批次内的最大长度，极大提升了训练效率，尤其是在序列长度差异大的场景下（如多轮对话数据）。

3. 训练器与训练策略 ( src/llamafactory/train/ ) 这是框架的“发动机”。它深度集成了 transformers.Trainer ，并在此基础上做了大量增强：

统一训练参数 ：通过一个 TrainingArguments 的扩展类，集中管理学习率、批次大小、优化器（AdamW, AdamW8bit）、调度器（Cosine, Linear）等所有超参数。
集成主流高效微调方法 ：
- 全量参数微调 ：适用于资源充足，追求极致效果的场景。
- LoRA ：在特定模块注入低秩适配器，只训练少量参数。
- QLoRA ：在LoRA基础上，将基础模型权重量化为4-bit，再用高精度LoRA适配器训练，是显存受限时的首选。
- DoRA ：将预训练权重分解为幅度（Magnitude）和方向（Direction）两部分，主要对方向部分进行低秩微调，据报道能比LoRA取得更好效果，尤其在全量数据上。
回调函数集成 ：内置了用于记录日志（如TensorBoard、WandB）、评估模型、保存检查点的回调函数。

4. Web图形界面 ( src/llamafactory/webui/ ) 这是LlamaFactory的一大亮点，极大地降低了使用门槛。它基于Gradio构建，提供了一个可视化的操作界面。在这个界面里，你可以：

模型与参数配置 ：通过下拉菜单选择模型、训练方法，滑动条调整学习率等超参数。
数据管理 ：上传或选择本地数据集，预览数据格式。
训练监控 ：实时查看训练损失曲线、学习率变化。
模型评估与对话 ：加载训练好的模型，进行交互式对话测试。对于不熟悉命令行的用户，或者想快速进行原型验证，WebUI是绝佳工具。

2.3 与其他微调框架的对比

了解一个项目，看它“不是什么”同样重要。这里简单对比几个常见工具：

vs. Hugging Face transformers + trl (SFTTrainer) : transformers 是基石， trl 提供了强化学习和SFT的工具。LlamaFactory可以看作是在它们之上，针对 多模型统一微调 场景的更高层封装和最佳实践集成。它省去了你组合 transformers , peft (LoRA), bitsandbytes (量化), datasets 等多个库并进行繁琐配置的过程。
vs. Axolotl : Axolotl是另一个非常流行且功能强大的微调框架。两者在目标上高度重合。主要区别可能在于 设计哲学和配置方式 。Axolotl高度依赖YAML配置文件，功能极其丰富但学习曲线可能稍陡。LlamaFactory则同时提供了清晰的Python API和WebUI，可能对Python开发者更友好，入门更平滑。功能上两者都在快速迭代，支持的主流模型和算法相差无几。
vs. 各模型官方仓库的微调脚本 ：如 llama-recipes 。官方脚本通常针对特定模型优化最好，但通用性差。换一个模型就得换一套脚本和配置习惯。

选择建议 ：如果你需要极致的灵活性，愿意深入每一个配置细节，Axolotl是很好的选择。如果你希望快速开始、统一体验、并有WebUI需求，LlamaFactory会是更优的起点。对于大多数应用和实验场景，LlamaFactory提供的功能已经绰绰有余。

3. 从零开始：环境配置与第一个微调实验

理论说了这么多，是时候动手了。我们以一个具体的例子，演示如何使用LlamaFactory微调一个模型，比如 Qwen2.5-7B-Instruct ，在一个自定义的指令数据集上。

3.1 环境搭建与安装

首先，确保你的机器有足够的资源。对于QLoRA微调Qwen2.5-7B，建议至少有16GB以上的GPU显存（如RTX 4090, A100等）。使用CUDA 12.1或更高版本。

步骤1：克隆仓库并创建环境

git clone https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory

我强烈建议使用Conda或Venv创建独立的Python环境，避免包冲突。

conda create -n llama_factory python=3.10
conda activate llama_factory

步骤2：安装依赖 LlamaFactory提供了便捷的安装脚本。基础安装：

pip install -e .[torch]

这将安装PyTorch和框架核心依赖。如果你想使用FlashAttention-2来加速训练（强烈推荐，尤其对于长序列），需要额外安装：

pip install flash-attn --no-build-isolation

注意：安装 flash-attn 可能需要与你的CUDA版本匹配，且可能需要一些编译环境。如果安装失败，可以暂时跳过，框架会回退到原生Attention实现。

步骤3：验证安装 启动WebUI是验证安装的好方法：

python src/train_web.py

如果一切顺利，你会在终端看到一个本地URL（如 http://127.0.0.1:7860 ），在浏览器中打开它，应该能看到LlamaFactory的Web界面。

3.2 准备你的数据集

LlamaFactory支持多种数据格式，最常用的是JSON或JSONL格式，每条数据一个JSON对象。框架预设了多种模板，我们以 alpaca 模板为例。

假设我们有一个简单的指令微调数据集，目标是让模型学会根据商品描述生成广告文案。数据格式如下 ( ad_data.jsonl )：

{
  "instruction": "为以下商品创作一则吸引人的广告文案。",
  "input": "商品：一款新型无线降噪耳机，续航50小时，支持空间音频。",
  "output": "沉浸式听觉盛宴，从此由你定义！全新XX无线降噪耳机，搭载智能主动降噪技术，瞬间隔绝外界纷扰。长达50小时的超长续航，陪你度过整个旅程。独家空间音频算法，让音乐从四面八方环绕而来，仿佛置身现场。现在购买，享受静谧与澎湃的双重体验！"
}
{
  "instruction": "为以下商品创作一则吸引人的广告文案。",
  "input": "商品：一款全自动家用咖啡机，一键制作意式浓缩、卡布奇诺。",
  "output": "唤醒你的居家咖啡馆！XX全自动咖啡机，一键解锁意式浓缩的醇厚与卡布奇诺的绵密。无需复杂操作，从咖啡豆到香醇咖啡，全程自动化。专业级萃取系统，充分释放咖啡油脂与香气。每天早上一杯专业级咖啡，开启活力满满的一天。"
}

你需要将数据集文件放在 data 目录下，或者任何你指定的路径。

关键点 ： instruction , input , output 是 alpaca 模板的默认字段。 input 是可选的。如果你的数据格式不同，需要在配置中指定 template 和字段映射关系。WebUI的数据预览功能能帮你检查格式是否正确。

3.3 使用WebUI进行微调（最简方式）

对于新手，WebUI是最快的上手途径。

启动WebUI ： python src/train_web.py
模型配置 ：
- 模型名称 ：选择 Qwen/Qwen2.5-7B-Instruct 。框架会自动从Hugging Face Hub下载模型（需网络通畅）。你也可以选择 模型路径 ，指向本地已下载的模型目录。
- 微调方法 ：选择 QLoRA 。这是在有限显存下微调大模型的最实用方法。
数据配置 ：
- 数据集 ：点击“创建数据集”，给你的数据集起个名字，比如 my_ad_data 。
- 训练文件 ：选择你准备好的 ad_data.jsonl 。
- 模板 ：选择 alpaca 。如果你的数据格式完全匹配 alpaca ，字段可以留空，框架会自动映射。
训练参数配置（关键） ：
- 学习率 ：QLoRA通常使用稍大的学习率，例如 1e-4 到 5e-4 。可以从 2e-4 开始。
- 最大序列长度 ：根据你的数据中 instruction+input+output 的最大长度来设置。可以先用脚本统计一下，比如设为 1024 。
- 批处理大小 ：根据你的显存调整。对于7B模型+QLoRA，在24G显存上， per_device_train_batch_size 可以尝试 4 或 8 。
- 训练轮数 ：对于小数据集（几百条），可以设置 5-10 个epoch。
- LoRA Rank (r) ：LoRA的秩，决定适配器的大小。通常 8 或 16 是好的起点，越大能力越强但参数越多。这里用 8 。
- LoRA Alpha ：缩放因子，通常设为 rank 的倍数，如 16 或 32 。可以先设为 32 。
- 量化等级 ：QLoRA的关键，选择 4-bit 。
开始训练 ：
- 配置好所有参数后，点击“开始”按钮。
- 训练日志会实时显示在下方。你可以看到损失值下降、当前学习率等信息。
- 训练完成后，适配器权重（通常只有几十MB）会默认保存在 saves/Qwen2.5-7B-Instruct/lora 这样的目录下。

3.4 使用命令行/脚本进行微调（进阶控制）

对于需要自动化、版本控制或更精细配置的场景，使用配置文件或Python脚本更合适。LlamaFactory提供了丰富的示例脚本 ( examples )。

一个典型的训练脚本 ( train_qlora.sh ) 内容如下：

#!/bin/bash
NUM_GPUS=1 # 使用GPU数量

deepspeed --num_gpus=$NUM_GPUS src/train_bash.py \
    --stage sft \ # 监督微调阶段
    --do_train True \
    --model_name_or_path Qwen/Qwen2.5-7B-Instruct \ # 基础模型
    --dataset my_ad_data \ # 数据集名称，对应data目录下的配置
    --template alpaca \
    --finetuning_type lora \ # 微调类型：lora
    --lora_target all \ # LoRA目标模块，all表示自动选择所有线性层
    --lora_rank 8 \
    --lora_alpha 32 \
    --output_dir saves/Qwen2.5-7B-Instruct-lora-ad \ # 输出目录
    --overwrite_cache \
    --per_device_train_batch_size 4 \
    --gradient_accumulation_steps 4 \ # 梯度累积，模拟更大批次
    --lr_scheduler_type cosine \
    --logging_steps 10 \ # 每10步记录一次日志
    --save_steps 100 \ # 每100步保存一次检查点
    --learning_rate 2e-4 \
    --num_train_epochs 5 \
    --max_length 1024 \
    --quantization_bit 4 \ # 4-bit量化，启用QLoRA
    --fp16 True \ # 混合精度训练
    --deepspeed ds_config.json # DeepSpeed配置文件，用于ZeRO优化，节省显存

你需要先在 data 目录下创建一个数据集配置文件 my_ad_data.json ，内容如下：

{
  "my_ad_data": {
    "file_name": "ad_data.jsonl", // 你的数据文件
    "file_sha1": null // 可填文件SHA1校验和，可选
  }
}

然后运行脚本 bash train_qlora.sh 。使用 deepspeed 可以进一步优化显存使用（ZeRO Stage 2/3），让你在有限显存下使用更大的有效批次大小。

4. 核心功能深度解析与高级用法

掌握了基础操作后，我们深入看看LlamaFactory的一些高级特性和核心实现细节。

4.1 多种高效微调方法的原理与选择

LlamaFactory集成了全量微调、LoRA、QLoRA和DoRA。了解其原理有助于你做出正确选择。

全量参数微调 ：更新模型的所有参数。优点是能最大程度适应新数据，潜力最大。缺点是 计算和存储成本极高 ，需要大量显存和存储空间，且容易过拟合小数据集。仅当你有充足资源（多张A100/H100）和大量领域数据时考虑。
LoRA ：其核心假设是模型在下游任务适配时，权重变化具有 低秩特性 。对于预训练权重矩阵 W ∈ R^(d×k) ，LoRA不直接更新它，而是引入两个小的低秩矩阵 A ∈ R^(d×r) 和 B ∈ R^(r×k) ，其中秩 r << min(d, k) 。前向传播变为 h = Wx + (BA)x 。训练时， W 被冻结，只训练 A 和 B 。由于 r 很小（如8、16），可训练参数量骤降（通常不到原模型的1%），显存和计算开销大大减少，且多个LoRA适配器可以轻松切换。
QLoRA ：在LoRA的基础上更进一步。它将预训练权重 W 量化到4-bit精度 （如NF4格式）进行存储和前向计算，大幅降低了基础模型占用的显存。在计算梯度时，会通过 反量化 将权重临时恢复到高精度（bfloat16）状态，以确保梯度计算的准确性。QLoRA使得在单张消费级显卡（如24G的RTX 4090）上微调70B级别的模型成为可能，是 资源受限情况下的首选 。
DoRA ：2024年提出的新方法。它将预训练权重 W 分解为 幅度（magnitude） m 和 方向（direction） V 两部分： W = m V / ||V||_c （ ||·||_c 表示列范数）。微调时，冻结幅度 m ，对方向 V 应用LoRA进行更新。论文表明，DoRA能比LoRA更有效地逼近全量微调的效果，尤其是在全量数据上，因为它更好地保留了预训练权重的幅度信息。在LlamaFactory中，你可以通过 --finetuning_type dora 来启用它。

选择策略 ：

显存极度紧张，模型很大（>13B） ：无脑选 QLoRA 。

显存相对充足，模型中等（7B-13B），追求更好效果 ：可以尝试 LoRA 或 DoRA 。DoRA理论上限更高，但训练稍慢。

海量数据，顶级硬件 ：可以考虑 全量微调 。

快速实验和原型验证 ：从 QLoRA 开始，它是最具性价比的选择。

4.2 数据集构建与模板系统的奥秘

数据是微调的燃料。LlamaFactory的模板系统是其灵活性的关键。

模板是什么？ 模板定义了如何将你的原始数据（ instruction , input , output 等字段）拼接成模型训练时看到的文本序列。例如，一个简单的 alpaca 模板可能长这样：

{% if messages[0]['role'] == 'system' %}
  {{ messages[0]['content'] + '\n\n' }}
{% endif %}
{% for message in messages %}
  {% if message['role'] == 'user' %}
    {{ '### Instruction:\n' + message['content'] + '\n\n' }}
  {% elif message['role'] == 'assistant' %}
    {{ '### Response:\n' + message['content'] + eos_token }}
  {% endif %}
{% endfor %}

它会将多轮对话格式化为模型熟悉的指令-响应结构。

如何自定义模板？ 如果你的数据格式特殊，或者你想尝试不同的提示风格，可以轻松自定义。

在 data/templates 目录下创建一个新的模板文件，例如 my_template.jinja 。
按照Jinja2语法编写模板，使用 messages 变量（这是一个字典列表，每个字典包含 role 和 content ）。
在训练配置中指定 --template my_template 。

数据预处理实战技巧

清洗与去重 ：训练前务必清洗数据，去除无关字符、重复样本和低质量数据。可以使用 datasets 库进行快速去重。
长度分布分析 ：使用脚本分析你的数据集中 instruction+input+output 的长度分布。这将决定你设置的 max_length 参数。设置过小会截断长文本，丢失信息；设置过大会增加计算开销和显存占用。通常可以覆盖90%以上的样本长度。
数据增强 ：对于小数据集，可以通过回译、同义词替换、指令重组等方式进行数据增强，提升模型泛化能力。LlamaFactory本身不提供此功能，但你可以预处理你的数据文件。

4.3 训练参数调优指南

超参数设置对微调效果至关重要。以下是一些经验性的建议：

学习率 ：这是最重要的参数之一。
- 全量微调 ：通常较小，如 1e-5 到 5e-5 。
- LoRA/QLoRA ：由于大部分参数被冻结，可以使用较大的学习率，如 1e-4 到 5e-4 。 2e-4 是一个安全的起点。
- DoRA ：可以参考LoRA的学习率。
- 建议：进行小范围的网格搜索，例如尝试 1e-4 , 2e-4 , 5e-4 ，根据验证集损失选择最佳值。
批次大小与梯度累积 ：受限于显存，我们往往无法使用很大的 per_device_train_batch_size 。这时可以通过 gradient_accumulation_steps 来模拟更大的批次。 有效批次大小 = per_device_train_batch_size * gradient_accumulation_steps * GPU数量 。通常，更大的有效批次大小能使训练更稳定，但可能会影响收敛速度。一个常见的策略是保持有效批次大小在 32 到 128 之间。
优化器与调度器 ：
- 优化器 ： AdamW 是默认且可靠的选择。对于QLoRA，可以使用 AdamW8bit （来自 bitsandbytes 库）来进一步节省显存。
- 调度器 ： cosine （余弦退火）或 linear （线性衰减）是常见选择。 cosine 通常能带来更好的最终性能。 --warmup_ratio （预热步数比例）通常设为 0.03 到 0.1 ，让学习率从0逐渐上升到初始值，有助于训练初期稳定。
LoRA特定参数 ：
- lora_rank (r) ：越大，适配器能力越强，但参数越多，可能过拟合。对于7B模型， 8 或 16 足够。对于更大模型或更复杂任务，可以尝试 32 或 64 。
- lora_alpha ：缩放因子。通常设为 rank 的 2 倍或 4 倍。例如 rank=8 , alpha=32 。一个经验法则是， alpha/rank 的比例影响适配器对原始输出的影响强度。
- lora_dropout ：LoRA层中的Dropout率，用于防止过拟合，小数据集可以设为 0.1 。
训练轮数 ：取决于数据集大小。小数据集（几千条）可能需要 5-15 个epoch。大数据集（几十万条）可能 1-3 个epoch就够了。 务必监控验证集损失 ，当验证损失不再下降甚至开始上升时（过拟合），应提前停止训练。LlamaFactory支持 --eval_steps 和 --early_stopping_patience 参数来帮助自动早停。

5. 模型评估、推理与部署

训练完成后，我们得到了一个LoRA适配器（ .safetensors 或 .bin 文件）。接下来是如何使用它。

5.1 模型评估与效果测试

LlamaFactory提供了便捷的评估脚本和WebUI对话界面。

使用WebUI进行对话测试：

在WebUI的“模型”标签页，选择“加载模型”。
模型路径 ：选择你的基础模型路径（如 Qwen/Qwen2.5-7B-Instruct ）。
适配器路径 ：选择你训练保存的LoRA适配器目录（如 saves/Qwen2.5-7B-Instruct-lora-ad ）。
模板 ：选择与训练时一致的模板（如 alpaca ）。
点击“加载模型”，加载成功后，即可在“对话”标签页进行交互测试。输入你的指令，查看模型的生成效果。

使用脚本进行批量评估： 如果你有标准的测试集（格式与训练集类似），可以使用评估脚本量化模型性能。

python src/train_bash.py \
    --stage sft \
    --do_eval True \
    --model_name_or_path Qwen/Qwen2.5-7B-Instruct \
    --adapter_name_or_path saves/Qwen2.5-7B-Instruct-lora-ad \ # 指定LoRA适配器
    --dataset my_ad_data_eval \ # 你的测试集配置
    --template alpaca \
    --finetuning_type lora \
    --output_dir saves/eval_result \
    --per_device_eval_batch_size 8 \
    --max_samples 100 \ # 评估部分样本
    --predict_with_generate True # 生成文本进行评估

框架会计算生成文本的评估指标，如BLEU、ROUGE等（取决于你的任务），并输出到日志和文件。

5.2 模型合并与导出

LoRA适配器虽然小巧，但在推理时需要与基础模型动态结合，这会带来轻微的计算开销。对于生产部署，我们通常希望得到一个 独立的、合并后的模型文件 。

LlamaFactory提供了模型合并脚本：

python src/export_model.py \
    --model_name_or_path Qwen/Qwen2.5-7B-Instruct \
    --adapter_name_or_path saves/Qwen2.5-7B-Instruct-lora-ad \
    --template alpaca \
    --finetuning_type lora \
    --export_dir merged_model \ # 合并后模型输出目录
    --export_size 2 \ # 指定保存的精度，2表示FP16
    --export_legacy_format False # 是否导出为旧格式

执行后，你会在 merged_model 目录下得到一个完整的、可以直接用 transformers 库加载的模型：

from transformers import AutoTokenizer, AutoModelForCausalLM

model = AutoModelForCausalLM.from_pretrained("./merged_model", torch_dtype=torch.float16, device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("./merged_model")

合并后的模型在推理速度上会有优势，并且部署更简单。

5.3 部署到生产环境

合并后的模型可以像任何其他Hugging Face模型一样部署。

方案一：使用Transformers Pipeline（快速原型）

from transformers import pipeline

pipe = pipeline("text-generation", model="./merged_model", device=0)
result = pipe("为智能手表写一个广告文案：", max_new_tokens=100)
print(result[0]['generated_text'])

方案二：使用vLLM或TGI进行高性能推理 对于高并发生产场景，推荐使用专门的推理服务器。

vLLM ：以其高效的PagedAttention和极高的吞吐量著称。

pip install vllm
python -m vllm.entrypoints.openai.api_server \
    --model ./merged_model \
    --served-model-name my_finetuned_model \
    --port 8000

然后就可以通过OpenAI兼容的API接口调用。

Text Generation Inference ：Hugging Face官方推出的推理服务器，功能全面，支持流式输出、参数优化等。

方案三：量化部署以进一步降低资源需求 即使微调后，模型也可能仍然较大。可以使用 auto-gptq , gptq , awq 等工具对合并后的模型进行 后训练量化 ，将其转换为4-bit或8-bit，大幅减少内存占用和提升推理速度，同时尽可能保持精度。

6. 实战避坑与疑难问题排查

在实际使用中，你一定会遇到各种问题。这里总结了一些常见坑点和解决方案。

6.1 显存不足（CUDA Out Of Memory）

这是最常见的问题。

降低 per_device_train_batch_size ：这是最直接有效的方法。
启用梯度累积 ：减小批次大小，同时增加 gradient_accumulation_steps ，保持有效批次大小不变。
使用QLoRA而非LoRA ：确保 --quantization_bit 4 已设置。
启用梯度检查点 ：在训练参数中添加 --gradient_checkpointing True 。这会用计算时间换显存，训练速度会变慢，但能处理更长的序列或更大的模型。
使用DeepSpeed ZeRO优化 ：通过 --deepspeed ds_config.json 指定一个DeepSpeed配置文件。ZeRO Stage 2可以将优化器状态和梯度分片到多个GPU上，Stage 3还能分片模型参数。对于单卡，ZeRO Stage 2也能节省不少显存。
减少 max_length ：检查并缩短最大序列长度。
使用更小的模型 ：如果数据量不大，尝试从7B换到3B或1.5B的模型。

6.2 训练损失不下降或波动大

检查学习率 ：学习率可能太高（导致震荡）或太低（导致下降缓慢）。尝试调整学习率，并使用学习率预热（ --warmup_ratio ）。
检查数据质量 ：数据是否标注错误、噪声太大？尝试用一个非常小的、高质量的子集先跑一下，看损失是否能正常下降。
检查数据格式和模板 ：确保你的数据字段（ instruction , input , output ）与所选模板匹配。可以在WebUI中预览几条数据，看格式化后的文本是否正确。
检查损失计算 ：对于因果语言模型（Causal LM），训练目标是预测下一个token，损失计算通常只计算在 output 部分的token上， instruction 和 input 部分通常被掩码掉。确保你的模板和数据处理没有导致损失计算范围错误。
尝试全量微调一个小模型 ：如果LoRA/QLoRA损失不降，可以尝试用全量微调一个很小的模型（如100M参数）在同一个数据上，以排除数据本身的问题。

6.3 模型生成效果不佳（胡说八道、重复、不遵循指令）

过拟合 ：这是微调小数据集最常见的问题。表现是训练损失很低，但生成效果差。
- 解决方案 ：增加正则化。可以尝试：1) 减小LoRA的 rank 和 alpha ；2) 增加LoRA的 dropout ；3) 使用更早的检查点（可能验证集损失最低的点不是最后一个epoch）；4) 收集更多数据；5) 进行数据增强。
指令格式不一致 ：训练时使用的模板（如 ### Instruction: ）与推理时不同，导致模型困惑。
- 解决方案 ：确保训练和推理使用 完全相同的模板 。在WebUI加载模型和适配器时，模板设置必须与训练时一致。
训练轮数过多或过少 ：使用验证集监控，并启用早停。
基础模型能力不足 ：如果基础模型本身在相关任务上能力就很弱，微调可能收效甚微。尝试更换更强的基础模型。

6.4 其他常见错误

KeyError: ‘input_ids’ ：通常是因为数据格式错误，或者模板处理后的数据没有生成正确的 input_ids 、 attention_mask 等字段。仔细检查数据集配置和模板。
RuntimeError: expected scalar type Float but found Half ：混合精度训练（FP16）相关问题。确保你的CUDA、PyTorch、相关库（如 bitsandbytes ）版本兼容。尝试禁用FP16（ --fp16 False ），使用BF16（如果硬件支持， --bf16 True ）。
下载模型失败 ：由于网络原因无法从Hugging Face Hub下载模型。可以手动下载模型到本地，然后使用 --model_name_or_path /your/local/model/path 。
WebUI无法启动或卡顿 ：检查Gradio版本兼容性，或者尝试在启动命令中添加 --share 参数生成公共链接，有时本地端口问题会导致无法访问。

我的个人经验 ：在多次微调项目中，我最大的教训是 数据质量高于一切 。花在数据清洗、去重、格式标准化上的时间，回报率远高于盲目调整超参数。其次， 从一个小的、可复现的实验开始 ：用100条数据，跑1个epoch，快速验证整个pipeline是否通畅，模型是否对数据有反应（损失下降）。然后再逐步扩大数据量和训练规模。最后， 详细记录每次实验的配置 （可以使用WandB或TensorBoard），包括超参数、数据版本、环境信息，这是分析问题和复现结果的唯一依据。

7. 总结与展望：LlamaFactory的生态与未来

经过以上详细的拆解，我们可以看到，LlamaFactory不仅仅是一个工具，它更体现了一种趋势： 大模型微调正在从“专家手艺”变成“标准化工程” 。它通过抽象和封装，极大地降低了技术门槛，让开发者能更专注于任务本身和数据。

这个项目的生态也在不断丰富。除了持续加入对最新模型（如DeepSeek、Gemma等）的支持，社区也在贡献更多的数据集模板、训练技巧和部署案例。例如，对于 多模态大模型 的微调支持，或者与 强化学习（RLHF） 流程的更深度集成，都是未来可能的发展方向。

对于个人开发者和研究者而言，我的建议是： 将LlamaFactory作为你微调工作的起点和基准平台 。用它快速完成原型验证和基线模型训练。当你需要极其特殊的定制化需求，或者要深入研究某种微调算法的细节时，再深入到其源码或直接使用 transformers 、 peft 等底层库。

最后，分享一个我常用的小技巧：在开始大规模训练前，我总会用 --max_samples 50 和 --num_train_epochs 1 这样的参数，在几分钟内跑一个 超小规模的“冒烟测试” 。这能快速发现数据管道、环境配置等基础性问题，避免在长时间训练后才发现错误，白白浪费计算资源。

加入AMD AI开发者计划！

免费领 100 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

苏姿丰谈AMD扎根中国30年、对话李开复：AI转型只能由CEO亲自挂帅，别只听CIO的

AMD开发者中国社区

从PyTorch训练到Intel CPU部署：一条龙搞定YOLOv5模型优化与OpenVINO推理加速

本文详细介绍了从PyTorch训练到Intel CPU部署YOLOv5模型的完整流程，重点讲解了如何使用OpenVINO工具包进行模型优化与推理加速。通过实战案例展示了如何将训练好的YOLOv5模型转换为ONNX格式，并利用OpenVINO的模型优化器进行性能提升，最终实现高效部署。文章还提供了常见问题的解决方案，帮助开发者快速掌握端到端的模型部署技术。