【Datawhale × AMD】15分钟完成 Gemma 4 大模型部署与对话测试：基于 AMD ROCm 云环境的完整实操指南

lightatbluesky

147人浏览 · 2026-06-17 09:26:39

lightatbluesky · 2026-06-17 09:26:39 发布

导读：本文记录参加 Datawhale AI 学习营 Day1-2 任务的完整过程，在 AMD ROCm 免费云 GPU 环境中，使用 ModelScope 和 vLLM 完成 Gemma 4（4B）大模型的下载、部署与推理对话测试，全程约 15 分钟。

一、任务目标

在 AMD 云环境中完成以下操作：

验证 GPU 及 PyTorch 环境可用性
通过 ModelScope 下载 Gemma 4 模型
使用 vLLM 启动推理服务
与模型进行对话测试

二、环境说明

表格

组件	版本/说明
算力平台	AMD Radeon Cloud（免费实例）
GPU 框架	ROCm
基础模型	google/gemma-4-E4B-it
模型大小	约 15GB（safetensors 格式）
推理引擎	vLLM 0.23.0+rocm723
模型下载	ModelScope（魔搭社区）

三、详细部署步骤

Step 1：验证 GPU 环境

新建终端，执行以下命令：

bash

# 查看 AMD GPU 状态
amd-smi

预期输出：GPU 型号、显存占用、温度等信息。

bash

# 验证 PyTorch 能否识别 AMD GPU
python -c "import torch; \
print('PyTorch:', torch.__version__); \
print('ROCm available:', torch.cuda.is_available()); \
print('Device:', torch.cuda.get_device_name(0) if torch.cuda.is_available() else 'N/A')"

预期输出：ROCm available: True 及 GPU 设备名称。

Step 2：配置 pip 源并安装 ModelScope

bash

# 切换腾讯云镜像，提升国内下载速度
pip config set global.index-url https://mirrors.cloud.tencent.com/pypi/simple/

bash

# 安装 ModelScope（阿里达摩院开源模型社区）
pip install modelscope

Step 3：下载 Gemma 4 模型

bash

modelscope download --model google/gemma-4-E4B-it --cache_dir "./models"

下载耗时约 8 分钟，ModelScope 服务器在国内，速度稳定。

验证下载完整性：

bash

ls -lh ./models/google/gemma-4-E4B-it/

关键文件：model.safetensors（约 15GB，模型权重文件）。

Step 4：安装 vLLM

bash

# 卸载云环境中不兼容的旧版本组件
uv pip uninstall torchvision torchaudio

# 安装适配 ROCm 的 vLLM 版本
uv pip install 'vllm==0.23.0+rocm723' torchvision torchaudio 'fastapi[standard]==0.136.0' \
  --no-cache \
  --index-url https://mirrors.aliyun.com/pypi/simple/ \
  --extra-index-url https://wheels.vllm.ai/rocm/ \
  -U

Step 5：启动 vLLM 推理服务

bash

vllm serve ./models/google/gemma-4-E4B-it/ --served-model-name gemma-4-E4B-it

⚠️ 重要：该命令会占用当前终端，服务启动后保持运行，不要关闭终端，也不要按 Ctrl+C。

预期输出：模型加载进度，最终显示服务监听地址（默认 http://localhost:8000）。

Step 6：对话测试

必须新建终端窗口（原终端已被服务占用）：

bash

vllm chat --url http://localhost:8000/v1 --model gemma-4-E4B-it

输入测试文本：

plain

你是谁，你能做什么

若模型正常返回回复内容，说明 Gemma 4 已在 AMD ROCm 环境中成功运行。

四、关闭服务

测试完成后，需释放资源以供后续微调任务使用：

新终端中：按 Ctrl+C 退出对话客户端
服务终端中：按 Ctrl+C 停止 vLLM 服务

五、常见问题与避坑指南

表格

问题现象	原因	解决方案
GPU 识别失败	ROCm 驱动未正确加载	重启实例或联系平台支持
模型下载慢	使用默认 HuggingFace 源	切至 ModelScope 国内源
vLLM 启动报错	torchvision/torchaudio 版本冲突	按步骤先卸载再重装
终端无法输入	vLLM 服务占用了当前终端	新开终端进行对话
显存不足	模型加载占用大量 VRAM	确认无其他进程占用 GPU

六、原理解析

为什么需要两个终端？

vLLM 服务启动后持续监听端口，相当于"后台厨师"。对话客户端则是"前台点餐"，二者需要独立的 I/O 通道，因此必须分终端执行。

为什么选择 vLLM？

vLLM 通过 PagedAttention 技术实现高效的显存管理和连续的批量推理（Continuous Batching），相比原生 Transformers 推理，吞吐量有数量级提升。

七、总结

本次部署实践覆盖了大模型落地的核心环节：环境验证、模型获取、推理服务部署、API 调用。对于希望入门大模型工程化的开发者，这套"AMD 云环境 + ModelScope + vLLM"组合提供了零成本、高效率的实验方案，也为后续的模型微调任务奠定了环境基础。

加入AMD AI开发者计划！

免费领 200 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

《Nano-vLLM 源码解读》第 20 篇 · CUDA Graph

AMD开发者中国社区

如何安装基于DCU的vllm和LLaMa-Factory环境

插播广告一条😂🐶：我制作的一个免费，欢迎体验！

AMD开发者中国社区

AMD Ryzen SDT调试工具：解锁CPU潜能的终极实战手册

你是否曾想过，你的AMD Ryzen处理器背后还隐藏着多少未被发掘的性能潜力？当大多数用户还在BIOS中调整基础参数时，一群硬件爱好者已经通过直接对话CPU底层的方式，实现了前所未有的精细化控制。这就是AMD Ryzen SDT调试工具带来的革命性体验——一个让你能够深入到系统管理单元（SMU）核心，精细调节每一个CPU核心的硬件级调试平台。## 🎯 从理论到实践：三步骤掌握硬件级调优#