源码编译 PyTorch 和 vLLM，解决 AMD 显卡非法指令报错

2600_96323192

98人浏览 · 2026-06-18 11:13:30

2600_96323192 · 2026-06-18 11:13:30 发布

为什么预编译包在 AMD 显卡上总“水土不服”

很多拿到 AMD Instinct GPU 的朋友，第一步往往是直接 pip install torch。运气好能跑通 demo，但一旦上生产环境或者尝试 vLLM 这种对算子优化要求极高的框架，立马就会遇到各种“玄学”问题：要么报错说找不到 CUDA（其实是 ROCm），要么更致命——运行时直接抛出 Illegal instruction（非法指令）然后进程秒退。

这真不是你的代码写得有问题，而是预编译的二进制包为了通用性，往往阉割了特定架构的指令集支持，或者默认编译的目标架构与你手头的显卡不匹配。特别是在 ROCm 7.x 这个较新的版本下，硬件迭代快，预编译包的滞后性尤为明显。想要彻底解决这些问题，获得稳定的推理性能和完整的算子支持，源码编译是绕不开的必经之路。今天就来聊聊我在 DevCloud 上基于 ROCm 7.x 重新编译 PyTorch 和 vLLM 的实战过程，重点拆解那个导致“非法指令”报错的核心变量。

编译前的“排雷”：确认你的显卡架构代码

在敲下编译命令之前，有一个步骤绝对不能省，那就是确认当前系统识别到的确切 GPU 架构代码。这是后续所有编译工作的基石。

很多教程只让你装驱动，却忽略了验证。驱动装好了不代表编译器知道该生成什么指令。我们需要用到 rocminfo 工具。在终端执行：

rocminfo | grep -i "name.*gfx"

你会看到类似 Name: gfx90a 或 Name: gfx942 的输出。这个 gfx90a 或 gfx942 就是关键！它代表了你的 Instinct 显卡具体的微架构版本。如果你用的是 MI250，通常是 gfx90a；如果是最新的 MI300 系列，可能是 gfx942。

切记： 不要猜，也不要直接抄别人的配置。如果编译时指定的架构代码与实际硬件不符，生成的二进制文件就会包含硬件不支持的指令集，运行时必然报 Illegal instruction。把这个代码记下来，马上要用。

同时，建议再跑一下 rocm-smi，确保能看到显卡的温度、功耗和显存状态。如果这一步都报错，说明底层驱动或用户组权限（video/render）还没配好，这时候去编译上层框架纯属浪费时间。

核心实战：PYTORCH_ROCM_ARCH 决定生死

搞定环境检查后，我们进入正题。强烈建议使用 Conda 创建一个干净的虚拟环境，避免系统自带的 Python 包污染。激活环境并安装基础构建依赖（如 ninja, wheel, git）后，重头戏来了。

编译 PyTorch 时，必须通过环境变量明确告诉编译器目标架构。这就是解决“非法指令”报错的钥匙：

export PYTORCH_ROCM_ARCH="gfx90a"  # 请替换为你实际查到的架构代码
export MAX_JOBS=$(nproc)           # 利用所有 CPU 核心加速编译

PYTORCH_ROCM_ARCH 这个变量至关重要。如果不设置，PyTorch 的构建脚本可能会尝试编译所有架构（耗时极长且容易失败），或者默认编译一个过时的通用架构，导致在你的新卡上无法运行。设置了它，编译器就只会生成针对你这张卡的优化代码，既快又稳。

接下来开始编译安装：

git clone --recursive https://github.com/pytorch/pytorch.git
cd pytorch
# 切换到与 ROCm 7.x 对应的稳定分支，例如 release/2.4 或更新
git checkout v2.4.0 
python setup.py install

这个过程比较耗时，取决于你的 CPU 核心数。MAX_JOBS 能显著缩短等待时间。编译完成后，务必用一行代码验证：

python -c "import torch; print(torch.cuda.is_available()); print(torch.version.hip)"

如果输出 True 且显示了 HIP 版本，恭喜，地基打好了。

vLLM 编译陷阱：Triton 版本与链接错误

PyTorch 搞定后，vLLM 的编译同样不能掉以轻心。vLLM 强依赖 Triton 编译器来生成高效的 GPU 内核。在 ROCm 环境下，Triton 的版本必须与当前的 PyTorch 及 ROCm 版本严格匹配。版本不对应是导致 segmentation fault 或算子加载失败的常见原因。

在安装 vLLM 前，需要指定 HIP 的路径，并再次确保架构变量生效：

export HIP_PATH=/opt/rocm
export PYTORCH_ROCM_ARCH="gfx90a" # 保持与 PyTorch 编译时一致
pip install vllm --no-build-isolation

这里加上 --no-build-isolation 参数是个小技巧。它能防止 pip 创建隔离环境时拉取不兼容的旧版依赖，直接使用当前环境中已安装好的正确版本的 PyTorch 和 Triton，大幅减少依赖冲突的概率。

如果在编译过程中遇到 hipcc 链接错误，比如 cannot find -lhipblaslt，通常是因为 LD_LIBRARY_PATH 没有包含 ROCm 的库目录。可以在 .bashrc 中永久添加：

export LD_LIBRARY_PATH=/opt/rocm/lib:$LD_LIBRARY_PATH

或者在编译命令前临时导出。解决这类路径问题需要一点耐心，多看报错日志的最后几行，通常会提示缺哪个 .so 文件。

验证与性能初探

当一切编译完成，启动服务时那种踏实感是预编译包给不了的。使用以下命令启动 vLLM 服务：

python -m vllm.entrypoints.api_server \
    --model meta-llama/Meta-Llama-3-8B-Instruct \
    --gpu-memory-utilization 0.9 \
    --port 8000 \
    --host 0.0.0.0