LLaMA-Factory 多卡分布式训练在 AMD 集群上的实践

2600_96323227

50人浏览 · 2026-06-24 10:53:00

2600_96323227 · 2026-06-24 10:53:00 发布

打通多卡任督二脉：RCCL 通信库配置实战

单卡跑通 LLaMA-Factory 只是万里长征第一步，对于拥有多张 AMD Instinct 显卡的团队来说，真正的挑战在于如何让这些卡“协同作战”。在 NVIDIA 生态里，我们习惯了 NCCL 的无感接入，但在 AMD ROCm 平台上，要实现高效的分布式训练，核心在于正确配置 RCCL（Rocm Communication Collectives Library）。这不仅仅是改几个参数的问题，更是一场关于网络拓扑、环境变量和超时机制的精细调优。很多团队在从单卡扩展到多卡时，往往卡在通信死锁或者带宽跑不满这两个坑里，今天就来聊聊我们在实际集群中踩过的坑和填平它们的经验。

环境变量：分布式训练的“身份证”

启动多卡训练前，最基础也最容易出错的就是环境变量的设置。RCCL 依赖这些变量来识别集群拓扑和主节点。如果你是用原生 PyTorch 或者基于它的 LLaMA-Factory 进行分布式训练，MASTER_ADDR 和 MASTER_PORT 是必须显式指定的。

假设你的主节点 IP 是 192.168.1.100，我们可以约定一个未被占用的端口，比如 29500。在所有参与训练的节点上（包括主节点自己），都需要导出以下变量：

export MASTER_ADDR=192.168.1.100
export MASTER_PORT=29500
export WORLD_SIZE=4  # 根据你的总卡数调整
export RANK=0        # 当前节点的排名，主节点为 0，其他依次递增

这里有个细节值得注意：WORLD_SIZE 必须是所有节点卡数的总和，而 RANK 必须全局唯一且连续。如果是单机多卡场景，MASTER_ADDR 可以设为 localhost 或 127.0.0.1，但为了模拟真实的集群环境，建议即使单机测试也绑定到具体的网卡 IP，这样能提前暴露网络配置问题。此外，AMD 环境下有时需要显式指定可见设备，配合 HIP_VISIBLE_DEVICES 使用，确保每个进程只看到它该管的那张卡，避免资源争抢。

破解通信死锁：超时与缓冲区的艺术

配置好环境变量后，最让人头疼的莫过于训练刚开始就挂起，或者直接报 NCCL error（在 AMD 下通常表现为 RCCL 错误）。我们在扩展至 8 卡训练时，就曾遇到过典型的通信死锁：程序卡在 all_reduce 操作处，既不报错也不继续，CPU 占用率极低，GPU 显存却一直被占用。

经过反复排查 rccl 的日志（通过设置 NCCL_DEBUG=INFO 开启），我们发现问题的根源在于默认的网络超时阈值太短，无法适应某些复杂网络拓扑下的初始化握手。特别是在跨节点通信时，如果交换机路由稍慢或者防火墙策略有延迟，默认的 30 秒超时往往不够用。

解决这个问题的关键在于调整超时时间和缓冲区大小。我们在启动脚本中增加了以下参数注入：

export NCCL_TIMEOUT=3600  # 将超时时间延长至 1 小时，防止长时初始化失败
export NCCL_BUFFSIZE=4194304 # 增大缓冲区，提升大模型参数同步效率
export NCCL_NET_GDR_LEVEL=2  # 强制开启 GPU 直连，减少 CPU 拷贝开销

除了超时设置，网络拓扑的感知也很重要。RCCL 支持自动感知 PCIe 和 Infinity Fabric 连接结构，但在某些混合架构集群中，自动识别可能会失效，导致数据走了低带宽路径。如果发现带宽远低于预期（例如 InfiniBand 环境下只有 PCIe 的速度），可以尝试强制指定通信接口，或者检查是否禁用了 P2P（Peer-to-Peer）访问。在 AMD 平台上，确保内核模块 amdgpu 已正确加载且开启了 P2P 支持是前置条件。

多卡启动脚本与权重同步验证

理论配置再多，不如一段可运行的脚本来得实在。下面这份脚本是我们基于 LLaMA-Factory 微调流程整理的多卡启动模板，适用于单机多卡或多机多卡场景（需配合 torchrun 或 mpirun）。这里以单机 4 卡为例，展示如何串联上述配置：

#!/bin/bash

# 基础环境配置
export MASTER_ADDR=localhost
export MASTER_PORT=29500
export WORLD_SIZE=4
export NCCL_TIMEOUT=3600
export NCCL_BUFFSIZE=4194304
export HIP_VISIBLE_DEVICES=0,1,2,3

# 启动分布式训练
torchrun --nproc_per_node=4 \
    src/train.py \
    --model_name_or_path meta-llama/Llama-3-8B \
    --do_train \
    --dataset alpaca_en_demo \
    --finetuning_type lora \
    --output_dir ./saves/llama3-8b/lora \
    --per_device_train_batch_size 4 \
    --gradient_accumulation_steps 4 \
    --learning_rate 1e-4 \
    --num_train_epochs 3.0 \
    --fp16

脚本执行后，如何验证模型权重是否真的在多卡间同步了呢？最简单的方法是观察日志中的 Loss 曲线。在分布式数据并行（DDP）模式下，所有卡的梯度会在每一步进行 all_reduce 平均，因此每张卡计算出的 Loss 应该完全一致（误差在浮点数精度范围内）。如果不同卡的 Loss 出现明显发散，说明通信环节出了问题，权重没有正确同步。

此外，可以在代码中插入一个简单的断言检查。在训练循环的每一步结束后，打印当前 rank 的模型第一层权重均值：

import torch
import torch.distributed as dist

if dist.is_initialized():
    weight_mean = model.layer[0].weight.data.mean()
    dist.all_reduce(weight_mean, op=dist.ReduceOp.AVG)
    if dist.get_rank() == 0:
        print(f"Global Weight Mean Check: {weight_mean.item()}")

如果这个值在所有节点上都稳定且符合预期，那么恭喜你，多卡分布式训练的通信底座已经搭建稳固。

结语

从单卡验证到多卡集群，中间隔着的不仅是硬件数量的增加，更是对底层通信机制理解的深化。RCCL 作为 AMD 生态的通信基石，虽然文档不如 NCCL 丰富，但只要掌握了环境变量调配、超时机制优化以及正确的验证方法，同样能跑出令人满意的线性加速比。对于团队而言，建立一套标准化的多卡启动模板和故障排查手册，能让后续的新模型适配工作事半功倍。毕竟，在算力昂贵的今天，让每一张 AMD 显卡都满负荷运转，才是对成本最好的控制。

200小时GPU算力已就位，快来领取：https://marketing.csdn.net/questions/Q2604140858304426315?utm_source=AIpaper

文章海报

加入AMD AI开发者计划！

免费领 200 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

关于pytorch训练时GPU占用不满的问题

设置persistent_workers为True（默认False），即每个epoch后不销毁子进程，会增加内、显存占用，该参数在num_workers>0时才会生效。（此文章用于留档，方便以后遇到此问题时查找）

AMD开发者中国社区

PyTorch 训练流程优化：从数据加载到梯度累积的工程化实践

PyTorch 训练流程优化是一个系统性工程问题，需要从数据加载、计算精度、显存管理三个维度协同发力。核心要点如下：第一，数据加载优化是投入产出比最高的手段。pin_memory三项配置的组合通常可将 GPU 利用率提升 20%-40%，且几乎不增加代码复杂度。第二，混合精度训练在大多数视觉和 NLP 任务中可提供 1.5x-2x 的训练加速，但必须验证最终指标与 FP32 基线的一致性，并在自定

AMD开发者中国社区

突破GitHub下载瓶颈：Fast-GitHub加速插件全解析

对于国内开发者而言，GitHub下载速度缓慢已成为影响开发效率的主要障碍。Fast-GitHub加速插件通过智能技术方案，将GitHub资源下载速度提升10倍以上，让代码获取变得轻松高效。这款开源浏览器插件专为解决国内访问GitHub的网络限制而设计，通过优化下载路径和资源缓存机制，为用户提供流畅的GitHub使用体验。## 🔍 痛点识别：为什么GitHub下载如此缓慢？国内开发者访问G