导读:本文记录参加 Datawhale AI 学习营 Day1-2 任务的完整过程,在 AMD ROCm 免费云 GPU 环境中,使用 ModelScope 和 vLLM 完成 Gemma 4(4B)大模型的下载、部署与推理对话测试,全程约 15 分钟。


一、任务目标

在 AMD 云环境中完成以下操作:

  1. 验证 GPU 及 PyTorch 环境可用性

  2. 通过 ModelScope 下载 Gemma 4 模型

  3. 使用 vLLM 启动推理服务

  4. 与模型进行对话测试


二、环境说明

表格

组件 版本/说明
算力平台 AMD Radeon Cloud(免费实例)
GPU 框架 ROCm
基础模型 google/gemma-4-E4B-it
模型大小 约 15GB(safetensors 格式)
推理引擎 vLLM 0.23.0+rocm723
模型下载 ModelScope(魔搭社区)

三、详细部署步骤

Step 1:验证 GPU 环境

新建终端,执行以下命令:

bash

# 查看 AMD GPU 状态
amd-smi

预期输出:GPU 型号、显存占用、温度等信息。

bash

# 验证 PyTorch 能否识别 AMD GPU
python -c "import torch; \
print('PyTorch:', torch.__version__); \
print('ROCm available:', torch.cuda.is_available()); \
print('Device:', torch.cuda.get_device_name(0) if torch.cuda.is_available() else 'N/A')"

预期输出:ROCm available: True 及 GPU 设备名称。

Step 2:配置 pip 源并安装 ModelScope

bash

# 切换腾讯云镜像,提升国内下载速度
pip config set global.index-url https://mirrors.cloud.tencent.com/pypi/simple/

bash

# 安装 ModelScope(阿里达摩院开源模型社区)
pip install modelscope
Step 3:下载 Gemma 4 模型

bash

modelscope download --model google/gemma-4-E4B-it --cache_dir "./models"

下载耗时约 8 分钟,ModelScope 服务器在国内,速度稳定。

验证下载完整性:

bash

ls -lh ./models/google/gemma-4-E4B-it/

关键文件:model.safetensors(约 15GB,模型权重文件)。

Step 4:安装 vLLM

bash

# 卸载云环境中不兼容的旧版本组件
uv pip uninstall torchvision torchaudio

# 安装适配 ROCm 的 vLLM 版本
uv pip install 'vllm==0.23.0+rocm723' torchvision torchaudio 'fastapi[standard]==0.136.0' \
  --no-cache \
  --index-url https://mirrors.aliyun.com/pypi/simple/ \
  --extra-index-url https://wheels.vllm.ai/rocm/ \
  -U
Step 5:启动 vLLM 推理服务

bash

vllm serve ./models/google/gemma-4-E4B-it/ --served-model-name gemma-4-E4B-it

⚠️ 重要:该命令会占用当前终端,服务启动后保持运行,不要关闭终端,也不要按 Ctrl+C

预期输出:模型加载进度,最终显示服务监听地址(默认 http://localhost:8000)。

Step 6:对话测试

必须新建终端窗口(原终端已被服务占用):

bash

vllm chat --url http://localhost:8000/v1 --model gemma-4-E4B-it

输入测试文本:

plain

你是谁,你能做什么

若模型正常返回回复内容,说明 Gemma 4 已在 AMD ROCm 环境中成功运行。


四、关闭服务

测试完成后,需释放资源以供后续微调任务使用:

  1. 新终端中:按 Ctrl+C 退出对话客户端

  2. 服务终端中:按 Ctrl+C 停止 vLLM 服务


五、常见问题与避坑指南

表格

问题现象 原因 解决方案
GPU 识别失败 ROCm 驱动未正确加载 重启实例或联系平台支持
模型下载慢 使用默认 HuggingFace 源 切至 ModelScope 国内源
vLLM 启动报错 torchvision/torchaudio 版本冲突 按步骤先卸载再重装
终端无法输入 vLLM 服务占用了当前终端 新开终端进行对话
显存不足 模型加载占用大量 VRAM 确认无其他进程占用 GPU

六、原理解析

为什么需要两个终端?

vLLM 服务启动后持续监听端口,相当于"后台厨师"。对话客户端则是"前台点餐",二者需要独立的 I/O 通道,因此必须分终端执行。

为什么选择 vLLM?

vLLM 通过 PagedAttention 技术实现高效的显存管理和连续的批量推理(Continuous Batching),相比原生 Transformers 推理,吞吐量有数量级提升。


七、总结

本次部署实践覆盖了大模型落地的核心环节:环境验证、模型获取、推理服务部署、API 调用。对于希望入门大模型工程化的开发者,这套"AMD 云环境 + ModelScope + vLLM"组合提供了零成本、高效率的实验方案,也为后续的模型微调任务奠定了环境基础。

Logo

免费领 200 小时云算力,进群参与显卡、AI PC 幸运抽奖

更多推荐