别在Windows里安装vllm了,总有很多问题,

可以在WSL2的Unbuntu 24.04里安装vllm,轻松完成

一、相关链接

vllm
https://docs.vllm.ai/en/latest/index.html

github
https://github.com/vllm-project/vllm

vLLM 中文站
https://vllm.hyper.ai/docs/

vLLM 入门教程:零基础分步指南
https://openbayes.com/console/public/tutorials/rXxb5fZFr29

vLLM 支持目前主流大模型
Supported Models
https://docs.vllm.ai/en/latest/models/supported_models.html

二、安装

pip install vllm -i https://mirrors.aliyun.com/pypi/simple/

vllm 安装完接近 9G,

\\wsl.localhost\Ubuntu-24.04\home\uadmin\.local\lib\python3.13\site-packages\vllm

验证:

vllm --version

建议使用conda虚拟环境安装

三、使用

vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager
vllm serve,启动 vLLM 推理服务的命令
deepseek-ai/DeepSeek-R1-Distill-Qwen-32B,Hugging Face 模型库中的模型名称,vLLM 会尝试从 HF 下载模型。(也可是是本地路径,从魔搭上下载的模型)
--tensor-parallel-size 2,启用张量并行,在 2 个 GPU 上分布式运行模型(适合 32B 大模型)
--max-model-len 32768,设置模型的最大上下文长度(32K tokens),确保能处理长文本。
--enforce-eager,禁用 CUDA Graph 优化(可能在某些环境下更稳定,但性能稍低)

本地的量化模型

vllm serve /root/autodl-tmp/models/tclf90/deepseek-r1-distill-qwen-32b-gptq-int4 --tensor-parallel-size 1 --max-model-len 32768 --enforce-eager --quantization gptq --dtype half
关键改动:指定本地路径:替换 HF 模型名为你的本地路径。
--quantization gptq:显式声明使用 GPTQ 量化。
--dtype:设为 half(FP16)或 auto(自动选择),因为 GPTQ 本身是 4-bit,但计算时需指定中间精度。

vllm serve /root/autodl-tmp/models/tclf90/deepseek-r1-distill-qwen-32b-gptq-int4 --tensor-parallel-size 1 --max-model-len 4096 --quantization gptq --dtype half --gpu-memory-utilization 0.8 --max-num-seqs 8 --enforce-eager

小点的本地模型

vllm serve /root/autodl-tmp/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B --tensor-parallel-size 1 --max-model-len 2048
vllm serve /root/autodl-tmp/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B --tensor-parallel-size 1 --max-model-len 4096
 

Logo

免费领 100 小时云算力,进群参与显卡、AI PC 幸运抽奖

更多推荐