LLaMA-Factory 适配新模型架构的简易教程

2600_96323227

5人浏览 · 2026-06-24 11:05:30

2600_96323227 · 2026-06-24 11:05:30 发布

为什么你的新模型在 LLaMA-Factory 里“跑不通”？

最近不少朋友在群里问，手里有个刚开源的变体模型（比如某种改进版的 Mamba 或者混合注意力架构），想在 LLaMA-Factory 里跑微调，结果要么报错说模型类型未知，要么加载权重时形状对不上。其实，LLaMA-Factory 的核心优势就在于它的模块化设计，适配新架构并没有想象中那么复杂。不需要你重写整个训练引擎，只需要在配置注册和模型映射这两个关键节点上做一点“外科手术”式的修改。

今天我就以一个虚构的 HybridMamba 架构为例，带大家走一遍完整的适配流程。这套逻辑是通用的，无论你面对的是 Qwen 的新变种，还是社区里冒出来的任何新结构，只要掌握了这个套路，基本都能举一反三。

第一步：在配置系统中“登记户口”

很多开发者容易忽略第一步，直接去改代码，结果发现框架根本识别不了你的模型名称。LLaMA-Factory 依赖一套严格的配置映射机制来管理不同模型。你需要先在配置文件中告诉框架：“嘿，有这么一种新模型存在”。

打开项目根目录下的 src/llamafactory/extras/constants.py（不同版本路径可能微调，但逻辑一致），找到 MODEL_NAMES 或类似的字典定义。这里需要新增一个条目。假设我们的新模型叫 hybrid_mamba，对应的 HuggingFace 架构类名是 HybridMambaForCausalLM。

# src/llamafactory/extras/constants.py

MODEL_NAMES = {
    # ... 其他已有模型
    "llama": "LlamaForCausalLM",
    "qwen2": "Qwen2ForCausalLM",
    # 新增你的模型映射
    "hybrid_mamba": "HybridMambaForCausalLM", 
}

这步看似简单，却是后续所有自动化脚本能正确加载预训练权重的基石。如果这里没配好，你在启动训练时指定 --model_name_or_path hybrid_mamba，程序就会因为找不到对应的类定义而直接抛出 ValueError。

第二步：编写模型加载的“桥接代码”

配置注册完成后，框架知道了模型的名字，但还不知道具体该怎么实例化它，尤其是当新模型需要特殊的参数（比如 mamba_d_state 或自定义的 conv_dim）时。这时候我们需要在模型加载器中加一段适配逻辑。

通常在 src/llamafactory/model/model_loader.py 或者专门的 adapter 目录下，你会看到一个根据模型类型分发加载逻辑的函数。在这里，我们需要为 hybrid_mamba 添加一个分支。

# src/llamafactory/model/model_loader.py

from transformers import AutoConfig, AutoModelForCausalLM

def load_model(model_args, config_kwargs):
    model_type = model_args.model_type
    
    # 处理特殊架构的配置文件加载
    if model_type == "hybrid_mamba":
        # 某些新架构可能需要强制信任远程代码，或者注入特定默认值
        config_kwargs["trust_remote_code"] = True
        # 示例：如果默认 config 里没有 mamba 特有的参数，可以在这里兜底
        if "mamba_d_state" not in config_kwargs:
            config_kwargs["mamba_d_state"] = 16 
            
    # 通用加载逻辑
    config = AutoConfig.from_pretrained(model_args.model_name_or_path, **config_kwargs)
    model = AutoModelForCausalLM.from_config(config)
    
    return model, config

这段代码的核心作用是“翻译”。HF 的 AutoModel 虽然强大，但面对一些非标准字段或者需要特殊初始化的架构时，往往会显得力不从心。通过在这个拦截点手动注入参数，我们可以确保模型初始化时的状态符合预期，避免跑到一半因为维度不匹配而崩溃。

第三步：验证与调试的实战技巧

代码改完不是结束，真正的考验在于运行。在正式开启大规模微调前，建议先跑一个极小规模的“冒烟测试”。你可以准备一个只有 10 条数据的微型数据集，设置 max_steps=5，尝试启动训练。

llamafactory-cli train \
    --model_name_or_path ./path/to/hybrid_mamba \
    --model_type hybrid_mamba \
    --dataset demo_data \
    --finetuning_type lora \
    --output_dir ./outputs/test_run \
    --per_device_train_batch_size 1 \
    --max_steps 5

在这个阶段，重点观察两个地方：

显存占用曲线：新架构的显存计算逻辑可能与标准 Transformer 不同。如果发现显存瞬间爆满，检查是否是因为 attention_mask 的生成逻辑在新模型中不适用，或者需要调整 gradient_checkpointing 的策略。
Loss 下降趋势：如果 Loss 直接是 NaN 或者完全不降，大概率是位置编码（Positional Embeddings）或者归一化层（LayerNorm/RMSNorm）的实现与新架构不兼容。这时候需要回到模型类的定义中，确认是否复用了框架默认的 Embedding 层，还是需要加载模型自带的特定 Embedding。

让社区生态更丰富

适配新模型架构不仅仅是为了自己能用，更是给社区添砖加瓦。当你成功跑通后，不妨将这部分配置差异和加载逻辑整理成一个小的 Pull Request 提交给 LLaMA-Factory 官方，或者至少在 Issues 区分享你的 config.json 模板。

ROCm 生态和其他异构计算平台的发展，很大程度上依赖于这种“一人踩坑，众人避坑”的协作模式。就像我们在优化 SGLang 算子或使用 TileLang 改写内核时一样，每一个对新架构的支持，都在降低后来者的门槛。下次当你看到 GitHub 上又冒出一个有趣的新模型时，别再犹豫它能不能用，试着按这个流程动手改一改，说不定你就是那个让它在主流框架里“活”过来的人。

200小时GPU算力已就位，快来领取：https://marketing.csdn.net/questions/Q2604140858304426315?utm_source=AIpaper

文章海报

加入AMD AI开发者计划！

免费领 200 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

FlagOS Day 0 跨芯适配 GLM-5.2：发布即覆盖四款芯片，支持 vLLM + SGLang双插件

同时，FlagGems 新增 6 大领域算子库——FlagDNN、FlagBlas、FlagSparse、FlagFFT、FlagTensor、FlagAudio，覆盖科学计算与信号处理场景，共计 102 个领域算子，从"大模型专用"走向全领域覆盖。厂商目录放置后由插件自动发现加载，vLLM-Plugin-FL、SGLang-Plugin-FL、Megatron-LM-FL、Transformer