【大模型推理】vllm 源码安装
完整构建可能需要几分钟到十几分钟,取决于机器性能。
·
vLLM 源码安装指南
前置要求
- 操作系统: Linux
- Python: 3.10 - 3.13
- GPU: NVIDIA GPU,计算能力 7.0 或更高 (如 V100, T4, RTX20xx, A100, L4, H100 等)
安装方法
方法一:Python-only 构建(仅修改 Python 代码,无需编译)
如果你只需要修改 Python 代码,可以使用预编译的 wheel,速度最快:
cd /home/admin/workspace/aop_lab/app_source/code/public/vllm
VLLM_USE_PRECOMPILED=1 pip install --editable .
方法二:完整构建(包含 C++/CUDA 编译)
如果需要修改 C++ 或 CUDA 代码,需要完整编译:
cd /home/admin/workspace/aop_lab/app_source/code/public/vllm
pip install -e .
加速编译技巧:安装 ccache 可以大幅加速后续编译:
# 安装 ccache
pip install ccache # 或 apt install ccache
# 然后编译
CCACHE_NOHASHDIR="true" pip install --no-build-isolation -e .
限制编译并行数(防止内存不足):
export MAX_JOBS=4
pip install -e .
方法三:使用已有的 PyTorch 安装
如果你已经安装了特定版本的 PyTorch:
cd /home/admin/workspace/aop_lab/app_source/code/public/vllm
python use_existing_torch.py
pip install -r requirements/build.txt
pip install --no-build-isolation -e .
注意事项
-
CUDA Toolkit: 确保安装了完整的 CUDA Toolkit,并设置环境变量:
export CUDA_HOME=/usr/local/cuda export PATH="${CUDA_HOME}/bin:$PATH" -
验证 CUDA 安装:
nvcc --version -
编译时间: 完整构建可能需要几分钟到十几分钟,取决于机器性能。
HuggingFace 镜像配置(国内用户)
由于国内网络访问 HuggingFace 可能较慢,建议配置镜像:
export HF_ENDPOINT=https://hf-mirror.com
安装验证
验证安装版本
python3 -c "import vllm; print(f'vLLM 版本: {vllm.__version__}')"
验证核心模块
python3 -c "
from vllm import LLM, SamplingParams
import vllm.engine
import vllm.model_executor
print('所有核心模块加载成功!')
"
推理测试
from vllm import LLM, SamplingParams
# 加载模型
llm = LLM(model='facebook/opt-125m', trust_remote_code=True)
# 设置采样参数
sampling_params = SamplingParams(temperature=0.7, top_p=0.95, max_tokens=20)
# 执行推理
outputs = llm.generate(['Hello, my name is'], sampling_params)
# 打印结果
for output in outputs:
prompt = output.prompt
generated_text = output.outputs[0].text
print(f'提示: {prompt}')
print(f'生成: {generated_text}')
测试结果
| 项目 | 结果 |
|---|---|
| 版本 | 0.16.1rc1.dev52+g6467b635b |
| 模型加载 | ✅ 成功 |
| 推理执行 | ✅ 成功 |
| 模型内存占用 | 0.24 GiB |
| KV 缓存 | 84.37 GiB 可用 |
| 推理速度 | 输入 47.16 toks/s, 输出 157.17 toks/s |
参考文档
更多推荐

所有评论(0)