vllm 安装

躁动的青年

547人浏览 · 2026-04-04 22:44:48

躁动的青年 · 2026-04-04 22:44:48 发布

别在Windows里安装vllm了，总有很多问题，

可以在WSL2的Unbuntu 24.04里安装vllm，轻松完成

github
https://github.com/vllm-project/vllm

vLLM 中文站
https://vllm.hyper.ai/docs/

vLLM 入门教程：零基础分步指南
https://openbayes.com/console/public/tutorials/rXxb5fZFr29

vLLM 支持目前主流大模型
Supported Models
https://docs.vllm.ai/en/latest/models/supported_models.html

二、安装

pip install vllm -i https://mirrors.aliyun.com/pypi/simple/

vllm 安装完接近 9G，

\\wsl.localhost\Ubuntu-24.04\home\uadmin\.local\lib\python3.13\site-packages\vllm

验证：

vllm --version

建议使用conda虚拟环境安装

三、使用

vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager
vllm serve，启动 vLLM 推理服务的命令
deepseek-ai/DeepSeek-R1-Distill-Qwen-32B，Hugging Face 模型库中的模型名称，vLLM 会尝试从 HF 下载模型。（也可是是本地路径，从魔搭上下载的模型）
--tensor-parallel-size 2，启用张量并行，在 2 个 GPU 上分布式运行模型（适合 32B 大模型）
--max-model-len 32768，设置模型的最大上下文长度（32K tokens），确保能处理长文本。
--enforce-eager，禁用 CUDA Graph 优化（可能在某些环境下更稳定，但性能稍低）

本地的量化模型

vllm serve /root/autodl-tmp/models/tclf90/deepseek-r1-distill-qwen-32b-gptq-int4 --tensor-parallel-size 1 --max-model-len 32768 --enforce-eager --quantization gptq --dtype half
关键改动：指定本地路径：替换 HF 模型名为你的本地路径。
--quantization gptq：显式声明使用 GPTQ 量化。
--dtype：设为 half（FP16）或 auto（自动选择），因为 GPTQ 本身是 4-bit，但计算时需指定中间精度。

vllm serve /root/autodl-tmp/models/tclf90/deepseek-r1-distill-qwen-32b-gptq-int4 --tensor-parallel-size 1 --max-model-len 4096 --quantization gptq --dtype half --gpu-memory-utilization 0.8 --max-num-seqs 8 --enforce-eager

小点的本地模型

vllm serve /root/autodl-tmp/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B --tensor-parallel-size 1 --max-model-len 2048
vllm serve /root/autodl-tmp/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B --tensor-parallel-size 1 --max-model-len 4096

加入AMD AI开发者计划！

免费领 200 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

免费开源的AMD处理器调试神器：5分钟掌握SMUDebugTool完整使用指南

你是否曾经想过能够像专业工程师一样深入了解和控制你的AMD处理器？是否渴望突破系统限制，真正掌控硬件性能？今天，我将为你介绍一款完全免费开源的AMD Ryzen处理器调试工具——SMUDebugTool，它能让你从普通用户转变为硬件掌控者。这款强大的AMD Ryzen调试工具基于多个开源项目构建，为AMD Ryzen用户提供了前所未有的硬件访问能力，让复杂的处理器调试变得简单直观。## 🎯

AMD开发者中国社区

实战指南：使用SMUDebugTool解锁AMD Ryzen处理器深度调试与性能优化

你是否曾为AMD Ryzen处理器性能无法完全发挥而烦恼？是否尝试过各种超频软件却无法触及硬件底层？SMUDebugTool正是为解决这些痛点而生。这款开源工具专为AMD Ryzen系统设计，提供了直接访问CPU底层参数的完整解决方案，包括SMU通信监控、PCI资源配置、MSR寄存器操作和电源表管理，让你真正掌握硬件调优的主动权。## 🔍 从痛点出发：为什么需要硬件级调试工具？传统超频软

AMD开发者中国社区

AMD Ryzen SDT调试工具：解锁CPU潜能的终极实战手册

你是否曾想过，你的AMD Ryzen处理器背后还隐藏着多少未被发掘的性能潜力？当大多数用户还在BIOS中调整基础参数时，一群硬件爱好者已经通过直接对话CPU底层的方式，实现了前所未有的精细化控制。这就是AMD Ryzen SDT调试工具带来的革命性体验——一个让你能够深入到系统管理单元（SMU）核心，精细调节每一个CPU核心的硬件级调试平台。## 🎯 从理论到实践：三步骤掌握硬件级调优#