DevCloud 新手必看，如何在云端快速搭建 AMD 大模型微调环境

2600_96323178

5人浏览 · 2026-06-23 18:01:40

2600_96323178 · 2026-06-23 18:01:40 发布

刚注册完 DevCloud，面对空荡荡的控制台，很多新手朋友可能会犯愁：手里有 AMD 的算力资源，但到底该怎么把大模型微调环境搭起来？本地配环境光是解决依赖冲突就能让人头大，而在云端，我们完全可以把这些繁琐步骤“一键化”。

今天就来分享一套在 DevCloud 上快速搭建 AMD 大模型微调环境的实战流程。咱们不聊虚的，直接上手，争取十分钟内让你从“空白控制台”进入到“可以开始训练”的状态。核心工具就是目前社区最火的 LLaMA-Factory，配合 ROCm 7.x 生态，让 AMD Instinct GPU 发挥最大效能。

第一步：实例创建与镜像选择

一切始于正确的起点。登录 DevCloud 控制台后，点击“创建实例”。这里有个关键细节：镜像选择。

千万不要选通用的 Ubuntu 基础镜像然后自己去装驱动，那样容易踩坑且耗时。在镜像市场搜索框输入 ROCm 或 AMD，你会看到预装了 ROCm 7.x 驱动的专用镜像（通常标记为 Ubuntu 22.04 + ROCm 7.x 或类似字样）。直接选用它，能确保底层驱动、内核模块与用户态库的版本严格匹配，避免后续出现“找不到设备”或“非法指令”的尴尬。

实例规格方面，根据你要微调的模型大小选择。如果是练手 7B 模型，单卡 MI250 或 MI300 系列足矣；若要挑战更大参数或全量微调，记得勾选多卡互联选项。

创建时别忘了挂载数据卷。微调涉及大量数据集和模型权重，实例自带的系统盘往往空间有限且重启可能丢失数据。创建一个按需或包年包月的云硬盘，挂载到 /data 目录，后续所有的代码、数据和产出模型都存这里，安全又持久。

第二步：十分钟环境初始化脚本

实例启动并 SSH 登录后，别急着手动敲命令安装 PyTorch 或克隆仓库。为了复现性和效率，我整理了一个初始化脚本。这段代码会自动处理用户组权限、安装编译工具、配置环境变量，并拉取适配 AMD 的 LLaMA-Factory 版本。

你可以直接复制以下内容保存为 setup_env.sh，然后执行 bash setup_env.sh。喝杯咖啡的功夫，环境就准备好了。

#!/bin/bash
set -e

echo ">>> 正在配置用户组权限..."
# 确保当前用户在 video 和 render 组，这是访问 GPU 的前提
sudo usermod -aG video $USER
sudo usermod -aG render $USER

echo ">>> 正在安装基础编译依赖..."
sudo apt-get update
sudo apt-get install -y ninja-build cmake git curl wget

# 设置 ROCm 路径环境变量
export HIP_PATH=/opt/rocm
export PATH=$HIP_PATH/bin:$PATH

echo ">>> 正在安装 ROCm 版 PyTorch..."
# 注意：此处索引 URL 需根据实际 ROCm 版本调整，示例以 rocm6.2/7.x 通用逻辑为准
# 若官方源暂未更新 7.x wheel，可能需要从源码编译或使用社区预编译包
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/rocm6.2

# 验证安装
python3 -c "import torch; print('PyTorch version:', torch.__version__); print('CUDA available:', torch.cuda.is_available())"

echo ">>> 正在克隆并安装 LLaMA-Factory..."
cd /data
git clone https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory

# 限制并行编译数，防止内存溢出导致安装失败
export MAX_JOBS=4

# 安装 flash-attn (AMD 适配版可能需要特定分支，此处先尝试标准安装)
# 若报错，请检查是否有 hip-dev 包或尝试应用社区补丁
pip3 install flash-attn --no-build-isolation

# 安装 LLaMA-Factory 及其 DeepSpeed 依赖
pip3 install -e ".[deepspeed]"

echo ">>> 环境初始化完成！"
echo "请重新登录终端或运行 'newgrp video' 使组权限生效。"

脚本运行结束后，务必执行 newgrp video 或重新登录 SSH 会话，否则可能因权限问题无法调用 GPU。运行 rocm-smi 能看到所有显卡状态正常，就说明底层通路已打通。

第三步：数据准备与配置微调

环境就绪后，真正的重头戏是配置。LLaMA-Factory 的强大之处在于其灵活的 YAML 配置文件。

首先，将你的训练数据清洗为标准的 JSONL 格式，每行包含 instruction、input 和 output 三个字段。把数据文件放到 /data/LLaMA-Factory/data 目录下，并在 dataset_info.json 中注册它。

接下来修改训练配置。进入 examples/train_lora 目录，复制一份 llama3_lora_sft.yaml 作为自定义配置。针对 AMD 环境，有几个关键点必须确认：

model_name_or_path: 指向你下载到 /data/models 的本地模型路径。千万别在训练时直接从 Hugging Face 拉取，网络波动会导致训练中断。
finetuning_type: 新手建议先用 lora。相比 QLoRA，它在 ROCm 上的算子兼容性更好，不容易遇到量化库不支持的问题。等跑通流程后再尝试 QLoRA 以节省显存。
bf16: 务必开启。AMD Instinct 系列对 bf16 支持极佳，既能保证精度又能利用 Matrix Core 加速。
device_map: 通常设为 auto，框架会自动识别所有可用 GPU。

第四步：启动训练与监控

一切准备妥当，启动训练只需一行命令：

llamafactory-cli train examples/train_lora/my_custom_config.yaml

如果是多卡环境，LLaMA-Factory 会自动调用 DeepSpeed 进行分布式训练。你可以在配置文件中开启 ZeRO-3 优化，进一步降低显存占用，实现多卡线性加速。

训练过程中，习惯 NVIDIA 的用户可能会想找 nvidia-smi，但在 AMD 平台上，请使用 rocm-smi 来监控显存和温度。如果发现 Loss 震荡剧烈，可以尝试稍微调小学习率（如从 1e-4 降至 5e-5），或者在配置中暂时关闭 flash attention 排查数值稳定性问题。

当看到控制台输出 Training completed，恭喜你，专属的大模型已经诞生。你可以直接使用 vLLM 加载微调后的权重进行推理验证，整个闭环在 DevCloud 上流畅运转。

从空白控制台到模型产出，这套流程省去了本地配置的无数坑点。AMD 的算力性价比极高，配合成熟的 ROCm 生态，完全能胜任生产级的微调任务。现在，就去创建你的第一个实例，开始训练吧。

200小时GPU算力已就位，快来领取：https://marketing.csdn.net/questions/Q2604140858304426315?utm_source=AIpaper
在这里插入图片描述

加入AMD AI开发者计划！

免费领 200 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

FlagOS Day 0 跨芯适配 GLM-5.2：发布即覆盖四款芯片，支持 vLLM + SGLang双插件

同时，FlagGems 新增 6 大领域算子库——FlagDNN、FlagBlas、FlagSparse、FlagFFT、FlagTensor、FlagAudio，覆盖科学计算与信号处理场景，共计 102 个领域算子，从"大模型专用"走向全领域覆盖。厂商目录放置后由插件自动发现加载，vLLM-Plugin-FL、SGLang-Plugin-FL、Megatron-LM-FL、Transformer