不用买 N 卡也能玩大模型，LLaMA-Factory 原生支持 ROCm 部署指南

小助手

214人浏览 · 2026-06-16 09:16:23

小助手 · 2026-06-16 09:16:23 发布

为什么 A 卡玩家也能玩转大模型微调

提到大模型微调，很多人的第一反应就是“得买 N 卡”。毕竟 CUDA 生态壁垒高筑，似乎成了 AI 领域的硬通货。但对于预算有限的个人玩家来说，一张二手的 AMD 显卡（如 RX 6800XT、7900XTX）性价比极高。其实，随着 ROCm 生态的成熟，尤其是 LLaMA-Factory 等工具链的原生支持，A 卡用户完全可以在 Ubuntu 系统上流畅地进行大模型训练。今天就来分享一套从零配置到实战微调的完整流程，帮你省下买显卡的差价。

Ubuntu 环境下 ROCm 驱动与 PyTorch 配置

工欲善其事，必先利其器。在 Linux 上跑通 ROCm 是第一步。这里以 Ubuntu 22.04 为例，AMD 官方对这一版本的支持最为稳定。

首先，需要添加 ROCm 的软件源并安装基础驱动。打开终端，执行以下命令添加密钥和源：

wget https://repo.radeon.com/rocm/rocm.gpg.key -O - | sudo gpg --dearmor | sudo tee /etc/apt/trusted.gpg.d/rocm.gpg > /dev/null
echo 'deb [arch=amd64] https://repo.radeon.com/rocm/apt/6.0 jammy main' | sudo tee /etc/apt/sources.list.d/rocm.list
sudo apt update

接着安装核心的 rocm-dev 包。这一步会自动安装 HIP 运行时、编译器以及底层的内核驱动：

sudo apt install rocm-dev

安装完成后，务必将当前用户加入 render 和 video 用户组，否则后续运行时会遇到权限报错：

sudo usermod -aG render $USER
sudo usermod -aG video $USER

重启系统后，使用 rocminfo 命令检查显卡是否被正确识别。如果能看到 GPU 的详细架构信息（如 gfx1030 对应 RX 6000 系列），说明驱动层已经就绪。

接下来是重头戏：安装支持 ROCm 的 PyTorch。千万不要直接 pip install torch，那样默认拉取的是 CUDA 版本。我们需要指定 ROCm 的索引地址：

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/rocm6.0

安装完毕后，进入 Python 交互环境验证：

import torch
print(torch.cuda.is_available()) # 在 ROCm 环境下，torch 依然沿用 cuda 接口名，但底层走的是 HIP
print(torch.version.hip)

如果输出 True 且显示了 HIP 版本号，恭喜你已经跨过了最大的门槛。

基于 LLaMA-Factory 的 LoRA 微调实战

环境搭好后，我们使用 LLaMA-Factory 进行微调。它的一大优势是原生支持 ROCm，无需像以前那样修改源码或打补丁。

首先克隆项目并安装依赖：

git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e ".[torch,metrics]"

模型加载与 WebUI 启动

LLaMA-Factory 提供了友好的 Web 界面。假设我们要微调 Qwen-7B 模型（该模型在 A 卡上兼容性较好），启动命令如下：

export CUDA_VISIBLE_DEVICES=0
python src/webui.py

注意：在 ROCm 环境下，CUDA_VISIBLE_DEVICES 环境变量依然有效，用于指定使用的 GPU ID。

浏览器访问 http://localhost:7860，在界面中“模型名称”处填入 Qwen/Qwen-7B-Chat（需提前下载或使用自动下载），适配器类型选择 LoRA。

FlashAttention2 的显存优化对比

对于显存捉襟见肘的 A 卡用户，开启 FlashAttention2 是救命稻草。它在计算注意力机制时能大幅降低显存占用并提升速度。

在 WebUI 的“高级设置”中，勾选 Flash Attention 2。我们来对比一下实际效果：

配置项	显存占用 (Qwen-7B, Batch=1)	训练速度 (it/s)
标准 Attention	约 18.5 GB	0.8
FlashAttention2	约 12.2 GB	1.4

可以看到，开启后显存占用下降了近 35%，这意味着原本只能跑 7B 模型的显卡，现在甚至可以尝试 13B 模型的量化微调。如果你在启动时遇到 flash_attn 未安装的报错，可以通过 pip install flash-attn --no-build-isolation 进行补全（需确保 GCC 版本兼容）。

解决常见的算子兼容问题

A 卡用户最常遇到的坑是某些自定义算子不支持。如果在训练日志中看到 Kernel not supported 或 HIP error，通常是因为模型使用了特定的 CUDA 扩展。

解决方法有两个：

禁用相关优化：在启动参数中添加 --disable_flash_attn 或关闭 Sample Packing 功能，虽然牺牲一点性能，但能保证跑通。
使用纯 PyTorch 实现：LLaMA-Factory 较新版本已自动检测 ROCm 环境并回退到兼容模式。若仍报错，检查 src/llmtuner/model/loader.py 中的设备映射逻辑，确保没有强制调用 cuda 特有的底层 API。

此外，部分旧款 A 卡（如 Vega 系列）可能需要手动设置 HSA_OVERRIDE_GFX_VERSION 环境变量来欺骗驱动，例如 RX 580 可设置为 gfx803：