llama-factory SFT 系列教程 (五)，LoRA微调模型与vLLM推理的模板对齐实战

本文详细介绍了llama-factory SFT系列教程中LoRA微调模型与vLLM推理的模板对齐实战。通过分析训练和推理时Prompt模板不一致的问题，提供了从训练日志提取模板格式、构建模板生成函数以及与vLLM集成的具体方法，帮助开发者有效提升模型推理效果和效率。

诗语情柔

205人浏览 · 2026-05-19 09:21:07

诗语情柔 · 2026-05-19 09:21:07 发布

1. LoRA微调与vLLM推理的模板对齐难题

当你用llama-factory完成LoRA微调后，准备用vLLM进行批量推理时，可能会遇到这样的场景：模型输出结果总是不尽如人意，明明训练时表现很好，推理时却像换了个人。这种情况我遇到过好几次，后来发现根本原因是训练和推理的Prompt模板没有对齐。

llama-factory在训练时会自动给Alpaca格式的数据添加模板包装。比如原始指令是"请分类这段文本"，实际送入模型的可能是"[gMASK]sop<|user|>请分类这段文本<|assistant|>"。如果推理时直接输入原始指令，模型就像突然被扔到陌生环境，表现自然大打折扣。

这里有个实际案例：我们团队曾用ChatGLM3做企业分类任务，微调时准确率达到92%，但直接用vLLM推理时骤降到65%。后来发现是漏了模板封装，补上后效果立刻恢复到90%以上。这个坑我踩过，所以特别提醒大家注意模板对齐这个关键环节。

2. 从训练日志提取模板格式

2.1 定位模板配置文件

llama-factory的模板配置通常藏在两个地方：

训练日志中打印的预处理信息
代码库中的template.py文件

最快捷的方式是查看训练启动时的日志输出。当你运行类似下面的命令时：

python src/train_bash.py --template chatglm3

日志中会出现"Using template: chatglm3"的提示，接着就是转换后的数据样例。这是我们获取模板的第一手资料。

2.2 解析训练数据样本

更可靠的方法是直接打印训练数据集。在llama-factory的data/loader.py中添加几行调试代码：

def preprocess(...):
    print("转换后的数据集样例:", dataset[:1])
    return dataset

重新运行训练命令，你就能看到完整的模板格式。以ChatGLM3为例，典型的模板结构是：

[gMASK]sop<|user|> 
{instruction}
<|assistant|>

这个结构会被tokenizer转换成特定的token序列，比如64790(gMASK)、64792(sop)等开头标记。

3. 模板封装代码实战

3.1 构建模板生成函数

根据提取的模板结构，我们可以编写Python封装函数：

def apply_chatglm3_template(instruction):
    return f"[gMASK]sop<|user|>\n{instruction}<|assistant|>"

对于更复杂的多轮对话模板，需要处理system message和对话历史：

def build_multi_turn_prompt(messages):
    prompt = "[gMASK]sop"
    for msg in messages:
        if msg["role"] == "system":
            prompt += f"<|system|>\n{msg['content']}"
        else:
            prompt += f"<|{msg['role']}|>\n{msg['content']}"
    return prompt

3.2 与vLLM集成

在vLLM推理时，我们需要先封装模板再传入：

from vllm import LLM, SamplingParams

# 初始化模型
llm = LLM(model="merged_model_path")

# 准备采样参数
params = SamplingParams(temperature=0.7, max_tokens=512)

# 封装模板并推理
instructions = ["请分类这段文本", "总结这篇文章"]
prompts = [apply_chatglm3_template(text) for text in instructions]
outputs = llm.generate(prompts, params)

实测发现，这种方式的推理速度比API方式快5倍以上。我们处理40万条数据时，vLLM直接推理仅需6小时，而API方式需要30+小时。

4. 常见问题排查指南

4.1 模板不匹配的症状

当出现以下情况时，应该检查模板对齐问题：

模型输出完全无关的内容
输出格式与训练时不符
模型似乎"忘记"了微调内容
相同输入在不同环境结果差异大

4.2 调试技巧

Token级比对：用相同tokenizer编码训练和推理的输入，检查ID序列是否一致

train_tokens = tokenizer(train_prompt)["input_ids"]
infer_tokens = tokenizer(infer_prompt)["input_ids"]
print(train_tokens[:10] == infer_tokens[:10])

逐组件测试：逐步添加模板元素，观察模型响应变化
小样本验证：准备10-20个测试样本，确保模板修改后效果提升

4.3 性能优化建议

批量处理：vLLM对批量推理有优化，建议批量大小设为8-32
缓存模板：对固定模板可以预先生成token IDs减少重复计算
并行处理：对于超长文本列表，可用multiprocessing并行封装模板

记得在正式处理大数据前，先用小样本验证模板正确性。我在实际项目中曾因漏掉一个换行符导致整晚的推理任务作废，这个教训值得大家引以为戒。

加入AMD AI开发者计划！

免费领 100 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

NVIDIA H100 GPU架构与vLLM框架优化实践

GPU计算在现代深度学习中扮演着核心角色，其性能优化涉及硬件架构与软件框架的深度协同。以NVIDIA H100为代表的Hopper架构通过第四代Tensor Core和HBM3高带宽内存实现了算力突破，特别是在FP16矩阵运算（GEMM）中展现出显著优势。vLLM框架针对H100硬件特性进行了多项优化，包括连续分页注意力（PagedAttention）和核函数动态选择策略，这些技术显著提升了KV

AMD开发者中国社区

GitHub 热榜项目 - 周榜(2026-05-24)

AMD开发者中国社区

2026年LLM推理加速全景：量化、投机解码与KV Cache工程实战

python# StreamingLLM配置示例（基于transformers）from streaming_llm.enable_streaming_llm import enable_streaming_llmmodel = enable_streaming_llm( model, start_size=4, # 保留的初始token数量 recent_size=2000 # 滑动窗口大小)