vllm 安装
建议在WSL2的Ubuntu中安装vLLM以避免Windows兼容性问题。安装方法:通过阿里云镜像pip install vllm,验证版本后即可使用。主要命令vllm serve支持加载HuggingFace模型或本地路径,可配置张量并行(多GPU)、上下文长度(如32K tokens)和量化选项(如GPTQ-int4)。典型用例包括:32B大模型需2个GPU并行,7B小模型单GPU运行。关键参
别在Windows里安装vllm了,总有很多问题,
可以在WSL2的Unbuntu 24.04里安装vllm,轻松完成
一、相关链接
vllm
https://docs.vllm.ai/en/latest/index.html
github
https://github.com/vllm-project/vllm
vLLM 中文站
https://vllm.hyper.ai/docs/
vLLM 入门教程:零基础分步指南
https://openbayes.com/console/public/tutorials/rXxb5fZFr29
vLLM 支持目前主流大模型
Supported Models
https://docs.vllm.ai/en/latest/models/supported_models.html
二、安装
pip install vllm -i https://mirrors.aliyun.com/pypi/simple/
vllm 安装完接近 9G,
\\wsl.localhost\Ubuntu-24.04\home\uadmin\.local\lib\python3.13\site-packages\vllm
验证:
vllm --version
建议使用conda虚拟环境安装
三、使用
vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager
vllm serve,启动 vLLM 推理服务的命令
deepseek-ai/DeepSeek-R1-Distill-Qwen-32B,Hugging Face 模型库中的模型名称,vLLM 会尝试从 HF 下载模型。(也可是是本地路径,从魔搭上下载的模型)
--tensor-parallel-size 2,启用张量并行,在 2 个 GPU 上分布式运行模型(适合 32B 大模型)
--max-model-len 32768,设置模型的最大上下文长度(32K tokens),确保能处理长文本。
--enforce-eager,禁用 CUDA Graph 优化(可能在某些环境下更稳定,但性能稍低)
本地的量化模型
vllm serve /root/autodl-tmp/models/tclf90/deepseek-r1-distill-qwen-32b-gptq-int4 --tensor-parallel-size 1 --max-model-len 32768 --enforce-eager --quantization gptq --dtype half
关键改动:指定本地路径:替换 HF 模型名为你的本地路径。
--quantization gptq:显式声明使用 GPTQ 量化。
--dtype:设为 half(FP16)或 auto(自动选择),因为 GPTQ 本身是 4-bit,但计算时需指定中间精度。
vllm serve /root/autodl-tmp/models/tclf90/deepseek-r1-distill-qwen-32b-gptq-int4 --tensor-parallel-size 1 --max-model-len 4096 --quantization gptq --dtype half --gpu-memory-utilization 0.8 --max-num-seqs 8 --enforce-eager
小点的本地模型
vllm serve /root/autodl-tmp/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B --tensor-parallel-size 1 --max-model-len 2048
vllm serve /root/autodl-tmp/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B --tensor-parallel-size 1 --max-model-len 4096
更多推荐


所有评论(0)