告别 OOM 崩溃，LLaMA-Factory 在 ROCm 下的显存优化实战全记录

2600_96323165

52人浏览 · 2026-06-23 18:40:00

2600_96323165 · 2026-06-23 18:40:00 发布

被 OOM 逼疯的夜晚：LLaMA-Factory + ROCm 显存救命指南

做过大模型微调的朋友，大概都经历过那种绝望：训练脚本跑了一半，终端突然弹出一行冷冰冰的 CUDA out of memory（在 AMD 卡上则是 HIP out of memory），前几个小时的进度条瞬间归零。尤其是在使用消费级显卡或者显存稍显紧张的 Instinct 系列进行大参数模型微调时，显存就像是一个永远填不满的黑洞。

最近我在将 LLaMA-Factory 迁移到 ROCm 环境下时，也差点被这个问题劝退。原本以为换了 AMD 平台就能享受大显存红利，结果因为配置不当，连 7B 的模型都跑不起来。经过几天的折腾、查阅源码以及和社区大佬的几次 PR 交流，我终于摸索出了一套在 ROCm 下稳定运行且显存占用极低的配置方案。今天就把这套“保命”经验整理出来，希望能帮同样受困于 OOM 的你省掉几个通宵。

核心大招：ZeRO-3 与 Offload 的正确打开方式

在 LLaMA-Factory 中，解决显存爆炸最直接有效的手段就是 DeepSpeed 的 ZeRO-3 优化策略，配合 CPU Offload 技术。很多教程只告诉你“开启 ZeRO-3"，但在 ROCm 环境下，细节决定成败。

ZeRO-3 的核心思想是将模型参数、梯度和优化器状态分片存储在所有参与训练的 GPU 甚至 CPU 内存中，而不是让每张卡都存一份完整的副本。对于单卡或多卡微调大模型，这几乎是唯一解。

在我的实践环境中（ROCm 7.x + MI300X），直接在 ds_config.json 或 LLaMA-Factory 的 YAML 配置中启用以下参数是至关重要的：

deepspeed: examples/deepspeed/ds_z3_offload_config.json
# 或者在自定义配置中明确写出：
zero_optimization:
  stage: 3
  offload_param:
    device: cpu
    pin_memory: true
  offload_optimizer:
    device: cpu
    pin_memory: true
  overlap_comm: true
  contiguous_gradients: true

这里有两个容易被忽视的点：

pin_memory: true：在 ROCm 下，开启 pinned memory 能显著加速 CPU 与 GPU 之间的数据传输。如果不加这一项，Offload 带来的通信开销可能会让训练速度慢得像蜗牛，得不偿失。
overlap_comm：必须开启。它允许计算和通信重叠，掩盖数据搬运的延迟。

开启这套组合拳后，我发现显存占用直接下降了 60% 以上。原本只能跑 4bit 量化的场景，现在完全可以尝试 BF16 全精度微调，而且不再频繁触发 OOM。

防止瞬时峰值崩溃：动态 Block-Size 策略

有时候，即便开启了 ZeRO-3，训练还是会莫名其妙地在某个 step 崩溃。通过 rocprof 抓包分析，我发现问题出在显存的瞬时峰值上。大模型在计算 Attention 机制时，显存需求并非线性增长，而是随着序列长度波动。如果预分配的显存块（Block）大小不合理，很容易在峰值到来时因无法申请到连续内存而报错。

在 LLaMA-Factory 结合 vLLM 后端或某些自定义算子时，我们需要手动干预显存分配策略。虽然 LLaMA-Factory 本身屏蔽了部分底层细节，但我们可以通过环境变量和启动参数来优化。

针对 ROCm 7.x 的特性，建议在启动训练时设置以下环境变量，强制调整显存利用率阈值：

export PYTORCH_HIP_ALLOC_CONF=garbage_collection_threshold:0.8,max_split_size_mb:512
export HSA_FORCE_FINE_GRAIN_PCIE=1

更重要的是在 LLaMA-Factory 的配置文件中，限制 gpu_memory_utilization。很多人为了追求速度会把这个值设为 0.95 甚至更高，这在 ROCm 下非常危险。经过多次压测，我建议将其锁定在 0.85 到 0.90 之间：

# train_args.yaml
gpu_memory_utilization: 0.88 
# 预留 12% 的显存作为系统缓冲，应对 Kernel 启动时的瞬时峰值

这个看似保守的设置，实际上是用少量的显存空间换取了极高的稳定性。自从调整了这个参数，我的长上下文（Long Context）微调任务再也没有出现过中途崩断的情况。

实战效果：收敛曲线与稳定性验证

光说不练假把式。为了验证这套配置的有效性，我使用 LLaMA-3-8B 模型在中文指令数据集上进行了对比实验。

对照组：默认配置，未开启 Offload，gpu_memory_utilization = 0.95。
- 结果：在第 120 步时发生 OOM，训练终止。显存占用始终维持在 98% 以上，波动剧烈。
实验组：开启 ZeRO-3 + CPU Offload，gpu_memory_utilization = 0.88，开启 pin_memory。
- 结果：顺利完成 3 个 Epoch 的训练。显存占用稳定在 82% 左右，即使在处理长文本批次时，峰值也未超过 89%。

关于大家最关心的速度问题，引入 CPU Offload 确实会带来一定的通信开销。在我的测试中，每秒处理的 Token 数（tokens/s）大约下降了 15%。但是，考虑到原本根本跑不起来，这 15% 的代价完全是可以接受的。而且，由于训练过程不再中断，整体的时间成本反而是大幅降低的。

从收敛曲线来看，两组实验在相同 Step 下的 Loss 下降趋势几乎完全重合。这说明显存优化策略并没有牺牲模型的训练质量，BF16 精度下的数值稳定性在 ROCm 上表现得相当出色。

一份经过验证的参数模板

为了方便大家直接上手，我整理了一份在 ROCm 环境下经过验证的 LLaMA-Factory 启动配置模板。你可以直接保存为 train_rocm.yaml，根据你的实际路径微调即可：

model_name_or_path: /path/to/your/model
dataset: your_dataset
template: llama3
finetuning_type: lora
lora_target: all

# 关键优化配置
deepspeed: examples/deepspeed/ds_z3_offload_config.json
bf16: true
fp16: false
output_dir: ./saves/rocm-opt
overwrite_output_dir: true

# 训练控制
per_device_train_batch_size: 2
gradient_accumulation_steps: 4
learning_rate: 1.0e-4
num_train_epochs: 3.0
lr_scheduler_type: cosine
warmup_ratio: 0.1

# 显存优化特调
# 注意：如果在命令行启动，可通过 --gpu_memory_utilization 0.88 覆盖
# 确保 deepspeed 配置中 offload_param 和 offload_optimizer 均为 cpu

配合上述的环境变量设置，这套模板已经帮助我在多张不同型号的 AMD 显卡上成功跑通了从 7B 到 70B（多卡场景）的微调任务。

写在最后

在 AI 基础设施日益多元化的今天，AMD ROCm 生态已经不再是那个“能用就行”的备选方案。通过 LLaMA-Factory 这样优秀的工具链，配合合理的显存管理策略，我们完全可以在 AMD 显卡上构建出高效、稳定的大模型训练流程。

遇到 OOM 不要慌，更不要轻易放弃。很多时候，问题不在于硬件不够强，而在于我们没有找到正确的“开锁钥匙”。希望今天的分享能帮你省下买新显卡的钱，或者至少，让你今晚不用盯着报错日志熬夜了。如果你在尝试过程中遇到了新的坑，欢迎在评论区留言，我们一起把这个生态填得更平整。

加入AMD AI开发者计划！

免费领 200 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

FlagOS Day 0 跨芯适配 GLM-5.2：发布即覆盖四款芯片，支持 vLLM + SGLang双插件

同时，FlagGems 新增 6 大领域算子库——FlagDNN、FlagBlas、FlagSparse、FlagFFT、FlagTensor、FlagAudio，覆盖科学计算与信号处理场景，共计 102 个领域算子，从"大模型专用"走向全领域覆盖。厂商目录放置后由插件自动发现加载，vLLM-Plugin-FL、SGLang-Plugin-FL、Megatron-LM-FL、Transformer