【Datawhale × AMD】15分钟完成 Gemma 4 大模型部署与对话测试:基于 AMD ROCm 云环境的完整实操指南
导读:本文记录参加 Datawhale AI 学习营 Day1-2 任务的完整过程,在 AMD ROCm 免费云 GPU 环境中,使用 ModelScope 和 vLLM 完成 Gemma 4(4B)大模型的下载、部署与推理对话测试,全程约 15 分钟。
一、任务目标
在 AMD 云环境中完成以下操作:
-
验证 GPU 及 PyTorch 环境可用性
-
通过 ModelScope 下载 Gemma 4 模型
-
使用 vLLM 启动推理服务
-
与模型进行对话测试
二、环境说明
表格
| 组件 | 版本/说明 |
|---|---|
| 算力平台 | AMD Radeon Cloud(免费实例) |
| GPU 框架 | ROCm |
| 基础模型 | google/gemma-4-E4B-it |
| 模型大小 | 约 15GB(safetensors 格式) |
| 推理引擎 | vLLM 0.23.0+rocm723 |
| 模型下载 | ModelScope(魔搭社区) |
三、详细部署步骤
Step 1:验证 GPU 环境
新建终端,执行以下命令:
bash
# 查看 AMD GPU 状态
amd-smi
预期输出:GPU 型号、显存占用、温度等信息。
bash
# 验证 PyTorch 能否识别 AMD GPU
python -c "import torch; \
print('PyTorch:', torch.__version__); \
print('ROCm available:', torch.cuda.is_available()); \
print('Device:', torch.cuda.get_device_name(0) if torch.cuda.is_available() else 'N/A')"
预期输出:ROCm available: True 及 GPU 设备名称。
Step 2:配置 pip 源并安装 ModelScope
bash
# 切换腾讯云镜像,提升国内下载速度
pip config set global.index-url https://mirrors.cloud.tencent.com/pypi/simple/
bash
# 安装 ModelScope(阿里达摩院开源模型社区)
pip install modelscope
Step 3:下载 Gemma 4 模型
bash
modelscope download --model google/gemma-4-E4B-it --cache_dir "./models"
下载耗时约 8 分钟,ModelScope 服务器在国内,速度稳定。
验证下载完整性:
bash
ls -lh ./models/google/gemma-4-E4B-it/
关键文件:model.safetensors(约 15GB,模型权重文件)。
Step 4:安装 vLLM
bash
# 卸载云环境中不兼容的旧版本组件
uv pip uninstall torchvision torchaudio
# 安装适配 ROCm 的 vLLM 版本
uv pip install 'vllm==0.23.0+rocm723' torchvision torchaudio 'fastapi[standard]==0.136.0' \
--no-cache \
--index-url https://mirrors.aliyun.com/pypi/simple/ \
--extra-index-url https://wheels.vllm.ai/rocm/ \
-U
Step 5:启动 vLLM 推理服务
bash
vllm serve ./models/google/gemma-4-E4B-it/ --served-model-name gemma-4-E4B-it
⚠️ 重要:该命令会占用当前终端,服务启动后保持运行,不要关闭终端,也不要按
Ctrl+C。
预期输出:模型加载进度,最终显示服务监听地址(默认 http://localhost:8000)。
Step 6:对话测试
必须新建终端窗口(原终端已被服务占用):
bash
vllm chat --url http://localhost:8000/v1 --model gemma-4-E4B-it
输入测试文本:
plain
你是谁,你能做什么
若模型正常返回回复内容,说明 Gemma 4 已在 AMD ROCm 环境中成功运行。
四、关闭服务
测试完成后,需释放资源以供后续微调任务使用:
-
新终端中:按
Ctrl+C退出对话客户端 -
服务终端中:按
Ctrl+C停止 vLLM 服务
五、常见问题与避坑指南
表格
| 问题现象 | 原因 | 解决方案 |
|---|---|---|
| GPU 识别失败 | ROCm 驱动未正确加载 | 重启实例或联系平台支持 |
| 模型下载慢 | 使用默认 HuggingFace 源 | 切至 ModelScope 国内源 |
| vLLM 启动报错 | torchvision/torchaudio 版本冲突 | 按步骤先卸载再重装 |
| 终端无法输入 | vLLM 服务占用了当前终端 | 新开终端进行对话 |
| 显存不足 | 模型加载占用大量 VRAM | 确认无其他进程占用 GPU |
六、原理解析
为什么需要两个终端?
vLLM 服务启动后持续监听端口,相当于"后台厨师"。对话客户端则是"前台点餐",二者需要独立的 I/O 通道,因此必须分终端执行。
为什么选择 vLLM?
vLLM 通过 PagedAttention 技术实现高效的显存管理和连续的批量推理(Continuous Batching),相比原生 Transformers 推理,吞吐量有数量级提升。
七、总结
本次部署实践覆盖了大模型落地的核心环节:环境验证、模型获取、推理服务部署、API 调用。对于希望入门大模型工程化的开发者,这套"AMD 云环境 + ModelScope + vLLM"组合提供了零成本、高效率的实验方案,也为后续的模型微调任务奠定了环境基础。
更多推荐


所有评论(0)