【大模型推理】vllm 源码安装

完整构建可能需要几分钟到十几分钟，取决于机器性能。

执笔论英雄

360人浏览 · 2026-03-12 15:14:34

执笔论英雄 · 2026-03-12 15:14:34 发布

vLLM 源码安装指南

前置要求

操作系统: Linux
Python: 3.10 - 3.13
GPU: NVIDIA GPU，计算能力 7.0 或更高 (如 V100, T4, RTX20xx, A100, L4, H100 等)

安装方法

方法一：Python-only 构建（仅修改 Python 代码，无需编译）

如果你只需要修改 Python 代码，可以使用预编译的 wheel，速度最快：

cd /home/admin/workspace/aop_lab/app_source/code/public/vllm
VLLM_USE_PRECOMPILED=1 pip install --editable .

方法二：完整构建（包含 C++/CUDA 编译）

如果需要修改 C++ 或 CUDA 代码，需要完整编译：

cd /home/admin/workspace/aop_lab/app_source/code/public/vllm
pip install -e .

加速编译技巧：安装 ccache 可以大幅加速后续编译：

# 安装 ccache
pip install ccache  # 或 apt install ccache

# 然后编译
CCACHE_NOHASHDIR="true" pip install --no-build-isolation -e .

限制编译并行数（防止内存不足）：

export MAX_JOBS=4
pip install -e .

方法三：使用已有的 PyTorch 安装

如果你已经安装了特定版本的 PyTorch：

cd /home/admin/workspace/aop_lab/app_source/code/public/vllm
python use_existing_torch.py
pip install -r requirements/build.txt
pip install --no-build-isolation -e .

注意事项

CUDA Toolkit: 确保安装了完整的 CUDA Toolkit，并设置环境变量：
```
export CUDA_HOME=/usr/local/cuda
export PATH="${CUDA_HOME}/bin:$PATH"
```
验证 CUDA 安装：
```
nvcc --version
```
编译时间: 完整构建可能需要几分钟到十几分钟，取决于机器性能。

HuggingFace 镜像配置（国内用户）

由于国内网络访问 HuggingFace 可能较慢，建议配置镜像：

export HF_ENDPOINT=https://hf-mirror.com

安装验证

验证安装版本

python3 -c "import vllm; print(f'vLLM 版本: {vllm.__version__}')"

验证核心模块

python3 -c "
from vllm import LLM, SamplingParams
import vllm.engine
import vllm.model_executor
print('所有核心模块加载成功！')
"

推理测试

from vllm import LLM, SamplingParams

# 加载模型
llm = LLM(model='facebook/opt-125m', trust_remote_code=True)

# 设置采样参数
sampling_params = SamplingParams(temperature=0.7, top_p=0.95, max_tokens=20)

# 执行推理
outputs = llm.generate(['Hello, my name is'], sampling_params)

# 打印结果
for output in outputs:
    prompt = output.prompt
    generated_text = output.outputs[0].text
    print(f'提示: {prompt}')
    print(f'生成: {generated_text}')

测试结果

项目	结果
版本	`0.16.1rc1.dev52+g6467b635b`
模型加载	✅ 成功
推理执行	✅ 成功
模型内存占用	0.24 GiB
KV 缓存	84.37 GiB 可用
推理速度	输入 47.16 toks/s, 输出 157.17 toks/s

参考文档

加入AMD AI开发者计划！

免费领 100 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

Ubuntu离线环境一键部署Ollama v0.3.12及LLaMA3.1-70B大模型完整工具集

面向无网络连接的Ubuntu系统，提供开箱即用的Ollama v0.3.12离线部署方案。内含可直接运行的安装脚本ollama_v0.3.12_offline_install.sh，自动处理依赖、二进制拷贝、服务注册与启动全流程；配套两份详细操作文档——纯文本版《ollama离线安装脚本使用指南.txt》和图文并茂的Markdown版《ollama-v0.3.12 离线安装指南（ubuntu）.m

AMD开发者中国社区

天池医学搜索比赛高分方案：PyTorch实现Query-文档相关性判别（RoBERTa/ERNIE多模型可直接运行）

面向天池KUAKE-QQR医学搜索数据集的端到端相关性建模资源包，开箱即用。支持RoBERTa-wwm-ext、RoBERTa-large-pair、ERNIE三种主流中文预训练模型微调，覆盖双塔与交互式两种典型架构。含完整流程脚本：数据增强（data_augment.py）、模型定义（bert.py + modules）、多阶段训练评估（train_eval.py + run_*.py）、单样本

AMD开发者中国社区

【2026最新】本地部署大模型该选哪个？Ollama / vLLM / llama.cpp 深度对比（附选型指南）

随着开源大模型的爆发式增长（Llama、Qwen、DeepSeek、Mistral……），越来越多的开发者开始在本地或私有服务器上部署 LLM。Ollama、vLLM、llama.cpp，我该用哪个？网上的文章要么只讲一个，要么比较得一笔带过。本文将从原理、性能、适用场景三个维度，给出一份真正能指导选型的深度对比。场景推荐方案个人本机玩模型Ollama，没有之一没有 GPU / CPU 部署lla