别只盯着 NVIDIA，HIPify 加 LLaMA-Factory 让我在 AMD 显卡上跑通了微调

2600_96323165

262人浏览 · 2026-06-23 18:17:00

2600_96323165 · 2026-06-23 18:17:00 发布

从 CUDA 到 HIP：打破“显卡焦虑”的第一步

以前每次想跑个大模型微调，看到显存报价单就头疼。NVIDIA 的卡是好，但价格也是真“香”得让人肉疼。作为个人开发者，预算有限，难道就只能眼巴巴看着别人玩 70B 大模型？最近我把手里的 AMD 显卡翻出来，本来只想试试推理，没想到顺着 ROCm 生态摸了一圈，竟然在自家机器上跑通了微调流程。

很多人对 AMD 做训练有刻板印象，觉得代码全是 CUDA 写的，迁移起来就是地狱难度。其实真没这么夸张。现在的工具链已经成熟到让你怀疑人生——尤其是 HIPify 这个神器。它不是让你去学一门新语言，而是帮你把现有的 CUDA 代码“翻译”成 HIP 代码。

我的项目里有一堆自定义的 CUDA Kernel，原本以为要逐行重写。结果只需要在终端敲一行命令：

hipify-clang ./my_cuda_project/src --output-directory=./my_hip_project

脚本跑完，目录下就多了一份后缀为 .hip 的代码。我打开对比了一下，cudaMalloc 变成了 hipMalloc，启动配置 <<<>>> 也自动适配了 HIP 语法。对于标准的算子，转化率几乎达到了 90% 以上。剩下的 10% 主要是些复杂的模板特化或者内联汇编，人工扫一眼改改就行。这一步走完，心里的石头就落地了：原来所谓的“生态壁垒”，很多时候只是信息差。

LLaMA-Factory：开箱即用的微调体验

代码能跑只是基础，真正干活还得靠框架。在微调这块，我直接选了 LLaMA-Factory。这玩意儿在 Github 上火是有原因的，接口统一，而且对 ROCm 的支持现在非常原生。

安装过程就不赘述了，关键是配置。很多新手上来就直接跑，结果在 AMD 卡上报错连连。这里有个核心参数必须注意：compute_type。AMD 的 Instinct 系列以及较新的消费级卡，对 bf16（Brain Floating Point 16）的支持比 fp16 更稳，收敛效果也更好。

在我的配置文件 train_config.yaml 里，我是这么设置的：

model_name_or_path: meta-llama/Llama-3-8B-Instruct
dataset: alpaca_gpt4_data_zh
finetuning_type: lora
compute_type: bf16  # 关键！AMD 卡建议强制指定 bf16
template: llama3

如果你不指定这个，框架可能会默认回退到 fp32 或者尝试 fp16，前者显存爆炸，后者容易精度溢出报错。指定 bf16 后，你会发现显存占用瞬间健康了很多，训练速度也没掉多少。

显存爆了？ZeRO-3 来救场

当然，实践过程中不可能一帆风顺。我第一次跑 8B 模型的时候，刚启动没多久就报了 OOM（Out Of Memory）。看着终端里红色的报错信息，第一反应是不是驱动有问题？后来冷静下来查文档，发现是显存分配策略没调优。

AMD 的大显存优势（比如 24G 甚至 48G）如果不配合好的并行策略，照样不够用。这时候就得请出 DeepSpeed 的 ZeRO-3 优化了。LLaMA-Factory 内置了对 DeepSpeed 的支持，只需要在启动命令里加个参数：

llamafactory-cli train \
    --deepspeed zero3_offload.json \
    --lora_target q_proj,v_proj \
    --per_device_train_batch_size 4

这里的 zero3_offload.json 是关键。它不仅把优化器状态切分到了多卡（如果是单卡则切分到 CPU 内存），还把部分参数卸载到了 CPU。虽然这会稍微增加一点 CPU 和 PCIe 的通信开销，但对于显存紧张的场景，这是唯一的解法。

调整后，原本一跑就崩的训练进程稳稳地跑了起来。监控一看，显存占用控制在 85% 左右，留出了足够的缓冲空间应对峰值。那一刻真的有种“省下一个亿”的快感。

别被偏见限制了想象力

这次实践最大的收获，不是省了多少买显卡的钱，而是打破了“非 NVIDIA 不可”的思维钢印。从 HIPify 的一键迁移，到 LLaMA-Factory 对 bf16 和 ZeRO-3 的丝滑支持，整个链路比我想象中顺畅太多。

社区里其实有很多人在默默填坑，Github 上的 Issue 响应速度也快得惊人。遇到问题，与其自己闷头调试，不如去看看有没有类似的 PR，或者直接提个 Issue。开源的魅力就在于此，你用的每一个优化补丁，可能都来自某个和你一样预算有限但不想妥协的开发者。

如果你手里正好有张闲置的 AMD 显卡，或者正在纠结要不要为了跑模型升级设备，不妨先试试这套方案。哪怕只是跑通一个 Demo，那种“我也能行”的成就感，绝对值得你花这个周末去折腾一下。毕竟，技术的边界，从来都不是由硬件品牌决定的，而是由我们愿意尝试的勇气定义的。

200小时GPU算力已就位，快来领取：https://marketing.csdn.net/questions/Q2604140858304426315?utm_source=AIpaper

在这里插入图片描述

加入AMD AI开发者计划！

免费领 200 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

FlagOS Day 0 跨芯适配 GLM-5.2：发布即覆盖四款芯片，支持 vLLM + SGLang双插件

同时，FlagGems 新增 6 大领域算子库——FlagDNN、FlagBlas、FlagSparse、FlagFFT、FlagTensor、FlagAudio，覆盖科学计算与信号处理场景，共计 102 个领域算子，从"大模型专用"走向全领域覆盖。厂商目录放置后由插件自动发现加载，vLLM-Plugin-FL、SGLang-Plugin-FL、Megatron-LM-FL、Transformer