刚注册完 DevCloud,面对空荡荡的控制台,很多新手朋友可能会犯愁:手里有 AMD 的算力资源,但到底该怎么把大模型微调环境搭起来?本地配环境光是解决依赖冲突就能让人头大,而在云端,我们完全可以把这些繁琐步骤“一键化”。

今天就来分享一套在 DevCloud 上快速搭建 AMD 大模型微调环境的实战流程。咱们不聊虚的,直接上手,争取十分钟内让你从“空白控制台”进入到“可以开始训练”的状态。核心工具就是目前社区最火的 LLaMA-Factory,配合 ROCm 7.x 生态,让 AMD Instinct GPU 发挥最大效能。

第一步:实例创建与镜像选择

一切始于正确的起点。登录 DevCloud 控制台后,点击“创建实例”。这里有个关键细节:镜像选择

千万不要选通用的 Ubuntu 基础镜像然后自己去装驱动,那样容易踩坑且耗时。在镜像市场搜索框输入 ROCmAMD,你会看到预装了 ROCm 7.x 驱动的专用镜像(通常标记为 Ubuntu 22.04 + ROCm 7.x 或类似字样)。直接选用它,能确保底层驱动、内核模块与用户态库的版本严格匹配,避免后续出现“找不到设备”或“非法指令”的尴尬。

实例规格方面,根据你要微调的模型大小选择。如果是练手 7B 模型,单卡 MI250 或 MI300 系列足矣;若要挑战更大参数或全量微调,记得勾选多卡互联选项。

创建时别忘了挂载数据卷。微调涉及大量数据集和模型权重,实例自带的系统盘往往空间有限且重启可能丢失数据。创建一个按需或包年包月的云硬盘,挂载到 /data 目录,后续所有的代码、数据和产出模型都存这里,安全又持久。

第二步:十分钟环境初始化脚本

实例启动并 SSH 登录后,别急着手动敲命令安装 PyTorch 或克隆仓库。为了复现性和效率,我整理了一个初始化脚本。这段代码会自动处理用户组权限、安装编译工具、配置环境变量,并拉取适配 AMD 的 LLaMA-Factory 版本。

你可以直接复制以下内容保存为 setup_env.sh,然后执行 bash setup_env.sh。喝杯咖啡的功夫,环境就准备好了。

#!/bin/bash
set -e

echo ">>> 正在配置用户组权限..."
# 确保当前用户在 video 和 render 组,这是访问 GPU 的前提
sudo usermod -aG video $USER
sudo usermod -aG render $USER

echo ">>> 正在安装基础编译依赖..."
sudo apt-get update
sudo apt-get install -y ninja-build cmake git curl wget

# 设置 ROCm 路径环境变量
export HIP_PATH=/opt/rocm
export PATH=$HIP_PATH/bin:$PATH

echo ">>> 正在安装 ROCm 版 PyTorch..."
# 注意:此处索引 URL 需根据实际 ROCm 版本调整,示例以 rocm6.2/7.x 通用逻辑为准
# 若官方源暂未更新 7.x wheel,可能需要从源码编译或使用社区预编译包
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/rocm6.2

# 验证安装
python3 -c "import torch; print('PyTorch version:', torch.__version__); print('CUDA available:', torch.cuda.is_available())"

echo ">>> 正在克隆并安装 LLaMA-Factory..."
cd /data
git clone https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory

# 限制并行编译数,防止内存溢出导致安装失败
export MAX_JOBS=4

# 安装 flash-attn (AMD 适配版可能需要特定分支,此处先尝试标准安装)
# 若报错,请检查是否有 hip-dev 包或尝试应用社区补丁
pip3 install flash-attn --no-build-isolation

# 安装 LLaMA-Factory 及其 DeepSpeed 依赖
pip3 install -e ".[deepspeed]"

echo ">>> 环境初始化完成!"
echo "请重新登录终端或运行 'newgrp video' 使组权限生效。"

脚本运行结束后,务必执行 newgrp video 或重新登录 SSH 会话,否则可能因权限问题无法调用 GPU。运行 rocm-smi 能看到所有显卡状态正常,就说明底层通路已打通。

第三步:数据准备与配置微调

环境就绪后,真正的重头戏是配置。LLaMA-Factory 的强大之处在于其灵活的 YAML 配置文件。

首先,将你的训练数据清洗为标准的 JSONL 格式,每行包含 instructioninputoutput 三个字段。把数据文件放到 /data/LLaMA-Factory/data 目录下,并在 dataset_info.json 中注册它。

接下来修改训练配置。进入 examples/train_lora 目录,复制一份 llama3_lora_sft.yaml 作为自定义配置。针对 AMD 环境,有几个关键点必须确认:

  • model_name_or_path: 指向你下载到 /data/models 的本地模型路径。千万别在训练时直接从 Hugging Face 拉取,网络波动会导致训练中断。
  • finetuning_type: 新手建议先用 lora。相比 QLoRA,它在 ROCm 上的算子兼容性更好,不容易遇到量化库不支持的问题。等跑通流程后再尝试 QLoRA 以节省显存。
  • bf16: 务必开启。AMD Instinct 系列对 bf16 支持极佳,既能保证精度又能利用 Matrix Core 加速。
  • device_map: 通常设为 auto,框架会自动识别所有可用 GPU。

第四步:启动训练与监控

一切准备妥当,启动训练只需一行命令:

llamafactory-cli train examples/train_lora/my_custom_config.yaml

如果是多卡环境,LLaMA-Factory 会自动调用 DeepSpeed 进行分布式训练。你可以在配置文件中开启 ZeRO-3 优化,进一步降低显存占用,实现多卡线性加速。

训练过程中,习惯 NVIDIA 的用户可能会想找 nvidia-smi,但在 AMD 平台上,请使用 rocm-smi 来监控显存和温度。如果发现 Loss 震荡剧烈,可以尝试稍微调小学习率(如从 1e-4 降至 5e-5),或者在配置中暂时关闭 flash attention 排查数值稳定性问题。

当看到控制台输出 Training completed,恭喜你,专属的大模型已经诞生。你可以直接使用 vLLM 加载微调后的权重进行推理验证,整个闭环在 DevCloud 上流畅运转。

从空白控制台到模型产出,这套流程省去了本地配置的无数坑点。AMD 的算力性价比极高,配合成熟的 ROCm 生态,完全能胜任生产级的微调任务。现在,就去创建你的第一个实例,开始训练吧。

200小时GPU算力已就位,快来领取:https://marketing.csdn.net/questions/Q2604140858304426315?utm_source=AIpaper
在这里插入图片描述

Logo

免费领 200 小时云算力,进群参与显卡、AI PC 幸运抽奖

更多推荐