LLaMA-Factory 微调指南，基于 AMD 显卡训练专属模型

2600_96323235

5人浏览 · 2026-06-23 08:46:12

2600_96323235 · 2026-06-23 08:46:12 发布

环境基石：从推理到训练的跨越

很多开发者在 AMD 平台上跑通 vLLM 推理服务后，往往止步于此，认为微调训练是 NVIDIA 的专属领地。其实，随着 ROCm 生态的成熟，利用 Instinct GPU 进行大模型微调已完全可行。LLaMA-Factory 作为目前最流行的微调框架之一，对 ROCm 后端的支持日益完善。要将场景从“推理”切换到“训练”，核心在于构建一个稳定的编译型环境，并解决 HIP 后端在反向传播中的算子兼容性问题。

不同于推理服务只需加载权重，微调训练涉及大量的梯度计算与显存动态分配，这对底层驱动的稳定性提出了更高要求。在 DevCloud 或本地工作站上，确保操作系统内核与 ROCm 7.x 驱动严格匹配是第一步。务必确认当前用户已加入 video 和 render 用户组，并通过 rocm-smi 验证所有加速卡状态正常。对于训练任务，建议直接使用源码编译版的 PyTorch，而非预编译包，以便针对特定的 GPU 架构（如 gfx90a、gfx942）进行指令集优化，避免运行时出现非法指令错误。

LLaMA-Factory 的 ROCm 适配安装

安装 LLaMA-Factory 在 AMD 平台上需要格外注意依赖链的顺序。首先，必须安装与 ROCm 版本对应的 PyTorch。可以通过官方索引安装，例如指定 --index-url https://download.pytorch.org/whl/rocm6.2（具体版本号需根据实际 ROCm 版本调整，ROCm 7.x 用户需关注社区最新 wheel 包或源码编译）。安装完成后，运行 python -c "import torch; print(torch.cuda.is_available())"，若返回 True，说明后端识别成功。

接下来是 LLaMA-Factory 本身的部署。虽然支持 pip 安装，但为了获得最佳的 ROCm 兼容性，推荐克隆 GitHub 源码并进行本地安装。在执行 pip install -e . 之前，需确保系统已安装 ninja、cmake 以及 hip-dev 等编译工具。特别需要注意的是，LLaMA-Factory 依赖的 flash-attn 库在 AMD 平台上并非默认支持，可能需要应用社区提供的 HIPify 补丁或使用适配后的分支版本。若遇到编译报错，可尝试设置环境变量 MAX_JOBS 限制并行数，并检查 HIP_PATH 是否指向正确的 ROCm 安装目录。

export HIP_PATH=/opt/rocm
export MAX_JOBS=4
pip install flash-attn --no-build-isolation
pip install -e ".[deepspeed]"

数据准备与配置文件关键修改

微调的核心在于数据与配置。LLaMA-Factory 支持多种数据格式，准备阶段需将领域数据清洗为标准的 JSONL 格式，包含 instruction、input 和 output 字段。在 AMD 环境下，配置文件的修改至关重要。打开 examples/train_lora/llama3_lora_sft.yaml 等示例文件，需重点关注以下参数：

model_name_or_path：指向本地模型路径，建议先将模型从 Hugging Face 下载至高速存储，避免训练时网络 I/O 瓶颈。
template：根据基座模型选择正确的对话模板，如 llama3。
finetuning_type：推荐使用 lora 或 qlora 以降低显存门槛。
device_map：在 ROCm 环境下，通常无需手动指定，框架会自动识别可用设备，但若遇到多卡负载不均，可尝试设置为 auto。

针对 ROCm 后端的特殊性，需在启动脚本或配置中显式启用混合精度训练。虽然参数名仍沿用 bf16 或 fp16，但底层会调用 AMD 的 Matrix Core 进行加速。对于 Instinct MI300X 等新架构，bf16 通常是更优选择，既能保证精度又能大幅提升吞吐量。

LoRA 与 QLoRA 的显存效率对比

在 AMD 显卡上进行微调，显存容量往往是首要限制因素。LLaMA-Factory 提供了 LoRA 和 QLoRA 两种主流方案，二者在资源占用上差异明显。

LoRA（Low-Rank Adaptation） 通过冻结主模型权重，仅训练低秩矩阵，显著减少了可训练参数量。在单张 MI250 或 MI300 上，LoRA 通常能容纳 7B 至 13B 参数的模型进行全序列长度训练。其优势在于训练速度较快，且不需要额外的量化库支持，兼容性最好。

QLoRA（Quantized LoRA） 则进一步将基座模型量化至 4-bit，大幅降低了显存占用。这使得在单卡上微调 70B 级别的大模型成为可能。然而，QLoRA 依赖 bitsandbytes 库，该库在 ROCm 上的支持尚在完善中。若遇到量化算子不支持的问题，可能需要使用适配 ROCm 的 bitsandbytes-rocm 分支，或者暂时回退到 LoRA 方案。在实际测试中，QLoRA 的显存占用可比 LoRA 降低 40% 左右，但训练步时的耗时可能会因量化解码开销而略有增加。

微调方法	显存占用 (7B 模型)	训练速度	兼容性难度	适用场景
LoRA	中等 (~16GB)	快	低	常规领域适配，追求稳定
QLoRA	低 (~8GB)	中	高	超大模型，显存受限场景

启动训练与超参数调优建议

一切就绪后，即可通过 llamafactory-cli 启动训练。对于多卡环境，LLaMA-Factory 内置了对 DeepSpeed 的支持，可通过 --deepspeed 参数启用 ZeRO 优化策略，进一步切分优化器状态和梯度，实现多卡线性加速。

llamafactory-cli train examples/train_lora/llama3_lora_sft.yaml

在 AMD 平台上，超参数的设定需结合硬件特性。Batch Size 不宜盲目过大，需观察显存碎片情况，若频繁 OOM，可减小 per_device_train_batch_size 并增大 gradient_accumulation_steps。Learning Rate 建议从 1e-4 开始尝试，配合 cosine 学习率调度器。针对 Instinct 系列显卡，若发现训练过程中 Loss 震荡剧烈，可尝试关闭某些激进的算子融合选项，或在配置中增加 --disable_flash_attn 以排查注意力机制的数值稳定性问题。

训练过程中的监控同样重要。虽然无法直接使用 nvidia-smi，但可以通过 rocm-smi 或集成 Prometheus+DCGM exporter 来实时监控 GPU 温度、功耗及显存利用率。一旦发现某张卡显存飙升而其他卡空闲，需检查 DeepSpeed 的配置是否正确开启了 ZeRO-3 模式。

当训练完成，合并权重并导出模型后，你可以再次利用 vLLM 加载这个专属模型进行推理验证。从数据清洗到模型产出，整套流程在 AMD 生态中已形成闭环。这不仅降低了算力成本，更让开发者能够灵活地利用现有硬件资源，构建真正懂业务的垂直领域模型。

200小时GPU算力已就位，快来领取：https://marketing.csdn.net/questions/Q2604140858304426315?utm_source=AIpaper
在这里插入图片描述

加入AMD AI开发者计划！

免费领 200 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

FlagOS Day 0 跨芯适配 GLM-5.2：发布即覆盖四款芯片，支持 vLLM + SGLang双插件

同时，FlagGems 新增 6 大领域算子库——FlagDNN、FlagBlas、FlagSparse、FlagFFT、FlagTensor、FlagAudio，覆盖科学计算与信号处理场景，共计 102 个领域算子，从"大模型专用"走向全领域覆盖。厂商目录放置后由插件自动发现加载，vLLM-Plugin-FL、SGLang-Plugin-FL、Megatron-LM-FL、Transformer