vLLM本地大模型部署实战：环境搭建、模型测试与API服务构建

写编程的木木

1958人浏览 · 2025-09-16 19:30:16

写编程的木木 · 2025-09-16 19:30:16 发布

本文详细介绍了如何使用vLLM在本地搭建高性能大语言模型服务。vLLM凭借PagedAttention和持续批处理技术，可实现最高23倍的吞吐量提升，支持多种量化格式和并行计算。文章对比了vLLM与Ollama、LM Studio的优劣，提供了完整的环境配置、模型下载、代码实现和API服务搭建指南，适合需要高并发、高性能推理的生产环境部署，是程序员学习大模型本地部署的实用指南。

见字如面，与大家分享实践中的经验与思考。

今天来介绍一下如何使用 vLLM 在本地搭建大语言模型。

vLLM 简介

vLLM 是一个快速且易于使用的大语言模型推理和部署库，最初由加州大学伯克利分校的 Sky Computing Lab 开发，现已发展为一个由学术界和工业界共同贡献的社区驱动项目。

核心优势：

PagedAttention + 持续批处理：内存效率提升，吞吐量最高 23 倍提升
量化支持：GPTQ、AWQ、INT4/8、FP8 等多种格式
并行计算：张量/流水线/数据/专家并行，支持多 GPU 扩展
生态兼容：HuggingFace 集成，OpenAI API 兼容，多 LoRA 支持
硬件支持：NVIDIA GPU（主要）、AMD、Intel、TPU、AWS 加速器

数据来源：https://docs.vllm.ai/en/latest/index.html [1]

相较于 Ollama 和 LM Studio，vLLM 在不同场景下各有优势：

工具	定位	适用场景	核心优势	主要限制
vLLM	高性能推理引擎	生产环境部署、高并发 API 服务	PagedAttention 内存优化、持续批处理、2.7x 吞吐量提升	仅支持 NVIDIA GPU、部署复杂、显存需求大
Ollama	轻量级本地工具	个人开发、快速原型验证、离线环境	一键安装、跨平台支持、Docker 风格命令、支持 Apple Silicon	单用户设计、性能相对较低、功能相对简单
LM Studio	可视化桌面应用	非技术用户、模型探索、教育场景	图形界面友好、内置模型市场、支持多模态、零代码体验	闭源软件、资源占用较高、定制化程度有限

环境准备

硬件： NVIDIA GPU（20GB+ 显存）、16GB+ 内存、50GB+ SSD 存储

软件： Linux/macOS/Windows、Python 3.8-3.12、CUDA 11.8+、uv/pip

测试环境： macOS 15.6、Python 3.12、UV 0.7.3 、PyTorch 2.0+、ModelScope（国内用户推荐）或 Hugging Face

项目准备

使用 uv 搭建 PyTorch 环境，可以参考官方文档：https://docs.astral.sh/uv/guides/integration/pytorch/。 [2]

01 项目初始化

## 新建项目
mkdir vllm-rag
cd vllm-rag
uv init --python 3.12
source .venv/bin/activate

## 添加核心依赖
uv add torch modelscope vllm

依赖说明：

torch: PyTorch 深度学习框架
vllm: 高性能大模型推理引擎
modelscope: 阿里云模型下载工具

初始化之后：

02 验证 PyTorch 环境

验证本地是否支持 PyTorch ，并且安装成功。

uv run test_pytorch.py

测试结果：

03 模型下载与管理

vLLM 默认从 Hugging Face 下载模型，但建议提前下载以避免运行时等待，同时便于模型版本管理。

使用 ModelScope（推荐，国内网络友好）

# model_download.py
from modelscope import snapshot_download

model_dir = snapshot_download('Qwen/Qwen3-8B', cache_dir='/Volumes/Data1/LLMs/vllm/models', revision='master')

注意：将 cache_dir 改成你的本地目录。

uv run model_download.py

等待模型下载：

vLLM 实测

使用 Qwen/Qwen3-8B 模型进行测试，预计占用 16-20GB 显存。

01 Python 代码编写

02 测试结果

思考模式结果：

输出内容如下：

Prompt: '<|im_start|>user\n给我一个关于大模型的简短介绍。<|im_end|>\n<|im_start|>assistant\n',
Response: '<think>\n好的，用户让我提供一个关于大模型的简短介绍。首先，我需要确定用户的需求是什么。他们可能是一个学生，或者对AI领域感兴趣的人，想要快速了解大模型的基本概念。也有可能是在做研究，需要简要的概述。\n\n接下来，我得考虑大模型的定义。大模型通常指的是参数量巨大的深度学习模型，比如Transformer架构，这些模型在自然语言处理、计算机视觉等领域有广泛应用。需要提到它们的规模，比如参数数量，以及训练数据量，因为这些都是关键点。\n\n然后，用户可能想知道大模型的特点。比如，它们的强大学习能力，能够处理多种任务，还有预训练和微调的概念。这些都是大模型的核心优势，应该涵盖进去。\n\n还要注意用户可能的深层需求。他们可能想了解大模型的实际应用，比如聊天机器人、文本生成、图像识别等。所以需要举几个例子，让介绍更具体。\n\n另外，用户可能对大模型的挑战感兴趣，比如计算资源需求高、训练成本大，以及可能的伦理问题。不过因为要求是简短介绍，这部分可能需要简要提及，避免过于深入。\n\n需要确保语言简洁明了，避免技术术语过多，让不同背景的读者都能理解。同时，保持结构清晰，分点或分段介绍，但用户要求的是简短，所以可能需要整合成一段流畅的文字。\n\n最后，检查是否有遗漏的重要信息，比如大模型的发展趋势，比如多模态模型、自监督学习等，但可能因为篇幅限制，只能简要带过。确保整体内容准确，没有错误信息，比如参数量的范围，训练数据量等，需要准确的数据支持。\n</think>\n\n大模型（Large Language Models, LLMs）是基于深度学习的参数量巨大的人工智能模型，通常包含数十亿甚至数万亿个参数。它们通过海量文本数据训练，具备强大的语言理解、生成和推理能力，可完成文本生成、问答、代码编写、多语言翻译等复杂任务。典型代表如GPT、BERT、PaLM等。大模型的核心优势在于其泛化能力，能通过预训练和微调适应多种应用场景，但同时也面临算力消耗高、训练成本大等挑战。'

非思考模式结果：

将 enable_thinking=False 并调整推理参数，再次验证。

输出内容如下：

Prompt: '<|im_start|>user\n给我一个关于大模型的简短介绍。<|im_end|>\n<|im_start|>assistant\n<think>\n\n</think>\n\n',
Response: '大模型（Large Model）是指参数量巨大、具有强大语言理解和生成能力的深度学习模型，通常基于Transformer架构。它们能够处理复杂的自然语言任务，如文本生成、翻译、问答、代码编写等。大模型通过海量数据训练，具备强大的泛化能力和上下文理解能力，广泛应用于人工智能的多个领域，如智能客服、内容创作、数据分析等。代表模型包括GPT、BERT、Ernie Bot等。'

vLLM 搭建类 OpenAI 服务

使用如下命令进行启动：

VLLM_USE_MODELSCOPE=true vllm serve \
/Volumes/Data1/LLMs/vllm/models/Qwen/Qwen3-8B \
--served-model-name Qwen3-8B \
--max_model_len 2048 \
--reasoning-parser deepseek_r1

启动结果：

模型信息：

curl http://localhost:8000/v1/models

{
"object":"list",
"data":[
{
"id":"Qwen3-8B",
"object":"model",
"created":1755695146,
"owned_by":"vllm",
"root":"/Volumes/Data1/LLMs/vllm/models/Qwen/Qwen3-8B",
"parent":null,
"max_model_len":2048,
"permission":[
{
"id":"modelperm-3194bd05ecd64efeb188c172ae14804b",
"object":"model_permission",
"created":1755695146,
"allow_create_engine":false,
"allow_sampling":true,
"allow_logprobs":true,
"allow_search_indices":false,
"allow_view":true,
"allow_fine_tuning":false,
"organization":"*",
"group":null,
"is_blocking":false
}
]
}
]
}

简单问题测试：

curl --location 'http://localhost:8000/v1/completions' \
--header 'Content-Type: application/json' \
--data '{
        "model": "Qwen3-8B",
        "prompt": "/no_think 3的阶乘是多少？",
        "max_tokens": 2000,
        "temperature": 0
    }'

输出结果：

{
"id":"cmpl-fb6ecf0c554d4ad984cabc9e8a7fc53a",
  "object":"text_completion",
  "created":1757429422,
  "model":"Qwen3-8B",
  "choices":[
{
"index":0,
"text":" 3的阶乘是3×2×1=6。所以，3的阶乘是6。",
"logprobs":null,
"finish_reason":"stop",
"stop_reason":null,
"prompt_logprobs":null
}
  ],
  "service_tier":null,
  "system_fingerprint":null,
  "usage":{
"prompt_tokens":10,
"total_tokens":34,
"completion_tokens":24,
"prompt_tokens_details":null
  },
  "kv_transfer_params":null
}

总结

vLLM 作为高性能的大语言模型推理框架，在生产环境和高并发场景下表现出色。通过 PagedAttention 等创新技术，它能够显著提升推理吞吐量和内存利用效率。

选择建议：

个人学习和快速验证：推荐使用 Ollama，简单易用
非技术用户和模型探索：推荐使用 LM Studio，界面友好
生产部署和高性能需求：推荐使用 vLLM，性能卓越

随着本地大模型技术的不断发展，这些工具都在各自的定位上持续优化，为不同需求的用户提供了丰富的选择。

引用链接

[1]: https://docs.vllm.ai/en/latest/index.html
能够显著提升推理吞吐量和内存利用效率。

选择建议：

个人学习和快速验证：推荐使用 Ollama，简单易用
非技术用户和模型探索：推荐使用 LM Studio，界面友好
生产部署和高性能需求：推荐使用 vLLM，性能卓越

随着本地大模型技术的不断发展，这些工具都在各自的定位上持续优化，为不同需求的用户提供了丰富的选择。

零基础如何高效学习大模型？

你是否懂 AI，是否具备利用大模型去开发应用能力，是否能够对大模型进行调优，将会是决定自己职业前景的重要参数。

为了帮助大家打破壁垒，快速了解大模型核心技术原理，学习相关大模型技术。从原理出发真正入局大模型。在这里我和鲁为民博士系统梳理大模型学习脉络，这份 LLM大模型资料 分享出来：包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码免费领取🆓**⬇️⬇️⬇️

在这里插入图片描述

【大模型全套视频教程】

教程从当下的市场现状和趋势出发，分析各个岗位人才需求，带你充分了解自身情况，get 到适合自己的 AI 大模型入门学习路线。

从基础的 prompt 工程入手，逐步深入到 Agents，其中更是详细介绍了 LLM 最重要的编程框架 LangChain。最后把微调与预训练进行了对比介绍与分析。

同时课程详细介绍了AI大模型技能图谱知识树，规划属于你自己的大模型学习路线，并且专门提前收集了大家对大模型常见的疑问，集中解答所有疑惑！

在这里插入图片描述

深耕 AI 领域技术专家带你快速入门大模型

跟着行业技术专家免费学习的机会非常难得，相信跟着学习下来能够对大模型有更加深刻的认知和理解，也能真正利用起大模型，从而“弯道超车”，实现职业跃迁！

【精选AI大模型权威PDF书籍/教程】

精心筛选的经典与前沿并重的电子书和教程合集，包含《深度学习》等一百多本书籍和讲义精要等材料。绝对是深入理解理论、夯实基础的不二之选。

在这里插入图片描述

【AI 大模型面试题】

除了 AI 入门课程，我还给大家准备了非常全面的**「AI 大模型面试题」，**包括字节、腾讯等一线大厂的 AI 岗面经分享、LLMs、Transformer、RAG 面试真题等，帮你在面试大模型工作中更快一步。

【大厂 AI 岗位面经分享（92份）】

【AI 大模型面试真题（102 道）】

【LLMs 面试真题（97 道）】

【640套 AI 大模型行业研究报告】

在这里插入图片描述

【AI大模型完整版学习路线图（2025版）】

明确学习方向，2025年 AI 要学什么，这一张图就够了！

👇👇点击下方卡片链接免费领取全部内容👇👇

在这里插入图片描述

抓住AI浪潮，重塑职业未来！

科技行业正处于深刻变革之中。英特尔等巨头近期进行结构性调整，缩减部分传统岗位，同时AI相关技术岗位（尤其是大模型方向）需求激增，已成为不争的事实。具备相关技能的人才在就业市场上正变得炙手可热。

行业趋势洞察：

转型加速： 传统IT岗位面临转型压力，拥抱AI技术成为关键。
人才争夺战： 拥有3-5年经验、扎实AI技术功底和真实项目经验的工程师，在头部大厂及明星AI企业中的薪资竞争力显著提升（部分核心岗位可达较高水平）。
门槛提高： “具备AI项目实操经验”正迅速成为简历筛选的重要标准，预计未来1-2年将成为普遍门槛。

与其观望，不如行动！

面对变革，主动学习、提升技能才是应对之道。掌握AI大模型核心原理、主流应用技术与项目实战经验，是抓住时代机遇、实现职业跃迁的关键一步。

在这里插入图片描述

01 为什么分享这份学习资料？

当前，我国在AI大模型领域的高质量人才供给仍显不足，行业亟需更多有志于此的专业力量加入。

因此，我们决定将这份精心整理的AI大模型学习资料，无偿分享给每一位真心渴望进入这个领域、愿意投入学习的伙伴！

我们希望能为你的学习之路提供一份助力。如果在学习过程中遇到技术问题，也欢迎交流探讨，我们乐于分享所知。

*02 这份资料的价值在哪里？*

专业背书，系统构建：

本资料由我与鲁为民博士共同整理。鲁博士拥有清华大学学士和美国加州理工学院博士学位，在人工智能领域造诣深厚：
- 在IEEE Transactions等顶级学术期刊及国际会议发表论文超过50篇。
- 拥有多项中美发明专利。
- 荣获吴文俊人工智能科学技术奖（中国人工智能领域重要奖项）。
目前，我有幸与鲁博士共同进行人工智能相关研究。

在这里插入图片描述

内容实用，循序渐进：

资料体系化覆盖了从基础概念入门到核心技术进阶的知识点。
包含丰富的视频教程与实战项目案例，强调动手实践能力。
无论你是初探AI领域的新手，还是已有一定技术基础希望深入大模型的学习者，这份资料都能为你提供系统性的学习路径和宝贵的实践参考，助力你提升技术能力，向大模型相关岗位转型发展。

抓住机遇，开启你的AI学习之旅！

在这里插入图片描述

加入AMD AI开发者计划！

免费领 200 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

白嫖48GB显存跑DeepSeek！AMD云GPU私有化部署实战

AMD开发者中国社区

PyTorch性能分析终极指南：从新手到专家的完整调试流程

你是否曾经遇到过这样的困境：PyTorch模型训练速度缓慢，内存占用过高，却不知道问题出在哪里？或者花费大量时间调整超参数，但效果甚微？在深度学习开发中，性能瓶颈往往是阻碍模型部署和产品化的最大障碍。本文将为你提供一套完整的PyTorch性能分析和优化指南，帮助你快速定位问题、提升模型效率，让你的深度学习项目跑得更快、更稳。## 痛点分析：为什么你的PyTorch模型跑得慢？在开始技术细节

AMD开发者中国社区

PyTorch性能优化终极指南：Profiler与TensorBoard实战应用

你是否曾经遇到过这样的困扰？🤔 模型训练速度慢如蜗牛，却不知道问题出在哪里；内存消耗飙升，却无法定位具体原因；模型精度不达标，却难以分析问题根源。在深度学习开发中，性能瓶颈就像隐形的敌人，让你花费大量时间却收效甚微。今天，让我们一起探索PyTorch性能优化的两大神器——Profiler和TensorBoard，让你的模型开发效率提升10倍以上！PyTorch作为当前最流行的深度学习框架之一