告别环境配置地狱，手把手教你在 ROCm 上编译 vLLM

2600_96323227

307人浏览 · 2026-06-29 12:10:30

2600_96323227 · 2026-06-29 12:10:30 发布

为什么预编译包在生产环境“不够用”

很多刚接触 AMD GPU 的朋友，在安装 vLLM 时首选 pip install vllm，觉得这样最省事。在本地跑个 Demo 确实没问题，但一旦进入生产环境或需要处理高并发请求，预编译包的局限性就暴露无遗：算子覆盖不全、针对特定架构优化不足，甚至偶尔出现的静默崩溃。

这就好比买了一套均码的衣服，日常凑合能穿，但要参加专业比赛就得量身定制。源码编译虽然听起来像“劝退”新手的拦路虎，实则是解锁 ROCm 全部性能的唯一钥匙。通过自行构建，我们可以精确控制 GCC 版本、隔离依赖冲突，并最关键地——将二进制文件与手中的显卡架构（如 MI300X 的 gfx942）完美匹配。这一步做好了，后续的性能提升是肉眼可见的。

打造干净的 Conda 隔离环境

编译失败的第一大原因往往是系统 Python 环境太“脏”。各种全局安装的库版本打架，让编译器无所适从。解决这个问题的黄金法则就是：永远不要在全局环境里编译大型深度学习框架。

首先，确保你的操作系统是 Ubuntu 22.04 LTS 或更新版本，这是 ROCm 7.x 支持最稳定的底座。接着，安装 Miniconda 或 Anaconda，创建一个专属的虚拟环境：

conda create -n rocm-vllm python=3.10 -y
conda activate rocm-vllm

在这个干净的环境中，我们先安装基础构建工具。注意，ROCm 生态对编译器版本非常敏感，GCC 11 或 Clang 15 是目前最稳妥的选择。如果系统默认是 GCC 12 或更高，务必使用 update-alternatives 进行切换，否则链接阶段极易报错。同时，CMake 版本建议在 3.20 以上：

conda install -c conda-forge cmake ninja gcc_linux-64=11 gxx_linux-64=11 -y

这一步看似繁琐，实则是一劳永逸。它确保了后续所有依赖都安装在沙盒中，即使编译失败，删除环境重来即可，不会污染宿主机。

核心关键：PYTORCH_ROCM_ARCH 的设置

这是整个编译过程中最容易踩坑、也最核心的环节。很多教程只让你装 PyTorch，却忽略了告诉编译器“你要为谁生成代码”。AMD GPU 有不同的架构代号，例如 MI250 是 gfx90a，而最新的 MI300 系列则是 gfx942。

如果不设置环境变量，PyTorch 可能会编译一个通用的或者错误架构的版本，运行时直接报 Illegal instruction（非法指令）错误，且没有任何友好提示。

在激活 Conda 环境后，必须先导出架构变量：

export PYTORCH_ROCM_ARCH="gfx942" 
# 请将 gfx942 替换为你实际显卡的架构代码，可通过 rocminfo 查看

如何确认自己的架构代码？运行 rocminfo | grep name，找到 Agent Name 下对应的 gfx 开头字符串。设置好这个变量后，再开始安装 PyTorch 的 ROCm 版本。建议直接从 PyTorch 官方渠道获取对应 ROCm 版本的 wheel 包，或者在设置好环境变量后进行源码编译以获得极致性能：

# 示例：安装预编译的 ROCm 版 PyTorch (需核对具体版本号)
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/rocm6.0

如果是源码编译 PyTorch，上述环境变量会自动被 setup.py 读取，生成的二进制文件将专门针对你的显卡优化，算子执行效率会有显著提升。

源码编译 vLLM 与参数调优

有了定制版的 PyTorch，接下来就是重头戏：编译 vLLM。vLLM 强依赖 Triton 编译器，因此必须确保 Triton 版本与当前的 PyTorch 后端兼容。

在安装前，还需要指定 HIP 的路径（通常默认为 /opt/rocm），并利用多核 CPU 加速编译过程：

export HIP_PATH=/opt/rocm
export MAX_JOBS=$(nproc)

# 安装 vLLM，禁用构建隔离以减少依赖冲突概率
pip install vllm --no-build-isolation

如果在编译过程中遇到某些算子不支持的警告，可以尝试添加 --no-deps 先安装核心包，再手动补齐依赖。对于追求极致稳定的生产环境，建议克隆 vLLM 源码仓库，修改 CMakeLists.txt 中的优化级别（例如将 -O3 调整为 -O2），虽然会牺牲微弱的运行时速度，但能大幅降低因编译器过度优化导致的罕见崩溃风险。

编译完成后，不要急着启动服务，先做一个快速验证：

python -c "import torch; print(f'ROCm Available: {torch.cuda.is_available()}')"

如果输出为 True，说明环境已就绪。

验证编译成果：rocm-smi 实战

怎么知道我们辛辛苦苦编译出来的二进制文件真的调用到了硬件？这时候 rocm-smi 就是最好的听诊器。

启动一个简单的 vLLM 服务加载模型，然后在另一个终端窗口运行：

watch -n 1 rocm-smi

观察输出表格中的 Temp（温度）、Power（功耗）和 Mem Use（显存使用）。当你发送推理请求时，如果看到对应 GPU 的功耗瞬间飙升、显存占用增加，且 Dclk/Mclk（频率）处于高性能状态，那就恭喜你了——编译成功，硬件正在全速运转。

如果功耗毫无波动而报错不断，那大概率还是架构匹配或驱动权限的问题（记得检查用户是否在 video 和 render 组）。

通过这一套流程，虽然比直接 pip install 多花了半小时，但你换来的是一个完全可控、性能榨干且稳定可靠的生产级推理引擎。这种“手搓”带来的掌控感，正是解决复杂工程问题的乐趣所在。

200小时GPU算力已就位，快来领取：https://marketing.csdn.net/questions/Q2604140858304426315?utm_source=AIpaper

文章海报

加入AMD AI开发者计划！

免费领 200 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

VLLMService Operator 开发第五篇：部署 Operator 并验证模型服务

存储准备完成后，就可以创建 VLLMService 资源了。metadata:spec:labels:port: 8000resources:requests:cpu: "2"limits:cpu: "4"storage:这里需要明确一点：VLLMService 本身只是用户声明的期望状态，它并不会直接运行模型。真正运行模型的是 Operator 根据这个 VLLMService 自动创建出来的

AMD开发者中国社区

Higress v2.2.3 发布：AI Gateway 能力增强，Gateway API 及其推理扩展持续打磨

Higress v2.2.3 版本发布，带来多项核心更新：新增 AI Gateway 的 vLLM 协议透传和上下文限制插件，增强 AI 安全防护与负载均衡；优化 Gateway API 隔离与推理路由配置；改进 Ingress 迁移体验；加固安全认证组件与 TLS 校验；修复多项 Console 问题。社区层面，Higress 正式入驻 CNCF Sandbox。