LLaMA-Factory源码解析：Tokenizer与模型加载流程

郁音允Zoe

1062人浏览 · 2025-09-27 00:56:23

郁音允Zoe · 2025-09-27 00:56:23 发布

LLaMA-Factory源码解析：Tokenizer与模型加载流程

【免费下载链接】LLaMA-Factory 易于使用的LLM微调框架（LLaMA, BLOOM, Mistral, 百川， Qwen, ChatGLM）。项目地址: https://gitcode.com/GitHub_Trending/ll/LLaMA-Factory

在LLaMA-Factory框架中，Tokenizer与模型加载是整个微调流程的基础环节。本文将深入解析这两个核心模块的实现细节，帮助开发者理解框架的底层工作机制。

Tokenizer加载流程

Tokenizer负责将文本转换为模型可理解的数字序列，是连接自然语言与模型的桥梁。LLaMA-Factory的Tokenizer加载逻辑主要实现于src/llamafactory/model/loader.py文件中的load_tokenizer函数。

核心实现步骤

初始化参数准备：调用_get_init_kwargs函数获取模型加载的基础参数，包括模型路径、缓存目录等
Tokenizer加载：使用HuggingFace的AutoTokenizer.from_pretrained方法加载预训练分词器，支持快速分词器切换和特殊Token处理

tokenizer = AutoTokenizer.from_pretrained(
    model_args.model_name_or_path,
    use_fast=model_args.use_fast_tokenizer,
    split_special_tokens=model_args.split_special_tokens,
    padding_side="right",
    **init_kwargs,
)

Tokenizer补丁：通过patch_tokenizer函数对加载的分词器进行定制化修改，以适应特定模型需求
Processor加载：针对多模态模型，尝试加载对应的Processor（如视觉-语言模型的处理器）
返回结果：将加载完成的Tokenizer和Processor封装为TokenizerModule对象返回

异常处理机制

代码中实现了完善的异常处理逻辑，当快速分词器加载失败时，会自动尝试加载普通分词器：

except ValueError:  # try another one
    tokenizer = AutoTokenizer.from_pretrained(
        model_args.model_name_or_path,
        use_fast=not model_args.use_fast_tokenizer,
        padding_side="right",
        **init_kwargs,
    )

模型加载流程

模型加载是LLaMA-Factory的核心功能之一，支持多种模型类型和加载策略。主要实现于src/llamafactory/model/loader.py文件中的load_model函数。

加载流程概览

配置加载：调用load_config函数加载模型配置文件
配置补丁：通过patch_config函数对模型配置进行定制化修改
模型加载策略：
- 普通加载：使用HuggingFace的from_pretrained方法直接加载
- Unsloth加速加载：通过load_unsloth_pretrained_model实现高效加载
- MOD模型加载：支持Mixture-of-Depths模型架构
模型补丁：调用patch_model函数应用模型定制化修改
适配器初始化：通过init_adapter函数初始化LoRA等参数高效微调适配器
值头加载：针对RLHF等需要价值估计的场景，加载价值头参数

多模型类型支持

LLaMA-Factory支持多种模型架构，通过类型判断选择合适的加载类：

if type(config) in AutoModelForImageTextToText._model_mapping.keys():  # image-text
    load_class = AutoModelForImageTextToText
elif type(config) in AutoModelForVision2Seq._model_mapping.keys():  # image-text
    load_class = AutoModelForVision2Seq
elif type(config) in AutoModelForSeq2SeqLM._model_mapping.keys():  # audio-text
    load_class = AutoModelForSeq2SeqLM
elif type(config) in AutoModelForTextToWaveform._model_mapping.keys():  # audio hack for qwen2_5_omni
    load_class = AutoModelForTextToWaveform
else:
    load_class = AutoModelForCausalLM

参数统计与状态设置

模型加载完成后，会自动统计可训练参数与总参数数量，并根据训练状态设置模型模式：

trainable_params, all_param = count_parameters(model)
if is_trainable:
    param_stats = (
        f"trainable params: {trainable_params:,} || "
        f"all params: {all_param:,} || trainable%: {100 * trainable_params / all_param:.4f}"
    )
else:
    param_stats = f"all params: {all_param:,}"

模块间协作关系

Tokenizer与模型加载模块并非孤立存在，而是与框架其他组件紧密协作：

与配置系统的交互：通过src/llamafactory/hparams/model_args.py定义的ModelArguments类接收用户配置
与适配器系统的集成：通过src/llamafactory/model/adapter.py实现参数高效微调
与模型工具类的协作：使用src/llamafactory/model/model_utils/目录下的工具函数实现模型优化

总结与最佳实践

LLaMA-Factory的Tokenizer与模型加载模块设计体现了以下特点：

灵活性：支持多种模型类型和加载策略，适应不同硬件环境和任务需求
健壮性：完善的异常处理机制确保在各种环境下的稳定运行
可扩展性：模块化设计便于添加新的模型类型和加载方式

开发者在使用过程中，可根据具体需求调整以下参数以获得最佳性能：

use_fast_tokenizer：根据模型特性选择是否使用快速分词器
compute_dtype：根据硬件条件选择合适的计算精度
use_unsloth：在支持的模型上启用Unsloth加速加载

通过深入理解这些核心模块的实现细节，开发者可以更好地定制和扩展LLaMA-Factory框架，以满足特定的微调需求。

扩展阅读

模型适配器实现：src/llamafactory/model/adapter.py
参数高效微调技术：examples/train_lora/
模型补丁系统：src/llamafactory/model/patcher.py

【免费下载链接】LLaMA-Factory 易于使用的LLM微调框架（LLaMA, BLOOM, Mistral, 百川， Qwen, ChatGLM）。项目地址: https://gitcode.com/GitHub_Trending/ll/LLaMA-Factory

加入AMD AI开发者计划！

免费领 200 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

生产级 LLM 推理框架横评：vLLM、SGLang 等 5 大方案全维度对比

AMD开发者中国社区

FlagOS Day 0 跨芯适配 GLM-5.2：发布即覆盖四款芯片，支持 vLLM + SGLang双插件

同时，FlagGems 新增 6 大领域算子库——FlagDNN、FlagBlas、FlagSparse、FlagFFT、FlagTensor、FlagAudio，覆盖科学计算与信号处理场景，共计 102 个领域算子，从"大模型专用"走向全领域覆盖。厂商目录放置后由插件自动发现加载，vLLM-Plugin-FL、SGLang-Plugin-FL、Megatron-LM-FL、Transformer