vllm-projectvllm：大模型推理服务的高性能方案

支持多种量化方案，覆盖FP8、MXFP8/MXFP4、NVFP4、INT8、INT4、GPTQ/AWQ、GGUF等主流格式，适配不同硬件的性能需求。vllm 无缝对接Hugging Face上的200+模型架构，包括解码器-only大模型、MoE模型、混合注意力与状态空间模型、多模态模型、嵌入与检索模型、奖励与分类模型等。支持并行采样、波束搜索等多种解码算法，内置张量并行、流水线并行、数据并行、专

variablevoyager

150人浏览 · 2026-05-12 19:08:32

variablevoyager · 2026-05-12 19:08:32 发布

文章目录

vllm-project/vllm：大模型推理服务的高性能方案

vllm-project/vllm：大模型推理服务的高性能方案

vllm-project/vllm 在 GitHub 上已经拿到 79,418 Star 了。

这是 UC Berkeley 天空计算实验室开发的 LLM 推理与服务库，核心目标是降低大模型部署的成本与复杂度，提升服务吞吐量。目前项目已有超过2000名贡献者，是活跃度最高的开源AI项目之一。

正文顶部截图

核心性能特性

vllm 基于自研的 PagedAttention 技术实现注意力键值内存的高效管理，对比传统方案，服务吞吐量提升数倍。支持连续批处理请求、分块预填充、前缀缓存等特性，搭配优化后的注意力内核，包括FlashAttention、FlashInfer、TRTLLM-GEN等，可充分释放GPU算力。

支持多种量化方案，覆盖FP8、MXFP8/MXFP4、NVFP4、INT8、INT4、GPTQ/AWQ、GGUF等主流格式，适配不同硬件的性能需求。支持推测解码、自动内核生成、分阶段预填充与解码等特性，进一步提升推理效率。

功能兼容性

vllm 无缝对接Hugging Face上的200+模型架构，包括解码器-only大模型、MoE模型、混合注意力与状态空间模型、多模态模型、嵌入与检索模型、奖励与分类模型等。

支持并行采样、波束搜索等多种解码算法，内置张量并行、流水线并行、数据并行、专家并行、上下文并行等分布式推理能力，支持流式输出、结构化生成、工具调用等常用功能。

提供OpenAI兼容的API服务，同时支持Anthropic Messages API与gRPC协议，可直接替换现有服务接口。支持多LoRA场景，适配NVIDIA、AMD GPU与x86/ARM/苹果硅等多种硬件平台，还支持Google TPU、华为昇腾、英特尔Gaudi等专用加速硬件。

README区域截图

安装与使用

推荐使用uv安装，命令为uv pip install vllm，也可从源码编译用于开发场景。官方文档提供详细的安装指南、快速上手教程与完整的支持模型列表，开发者可直接查阅。

项目欢迎各类贡献，包括代码提交、功能建议、问题反馈等，贡献指南可在官方文档中查看。如果在研究中使用vllm，可引用项目对应的SOSP 2023论文。

适用场景

适合需要部署高吞吐量大模型服务的开发者，搭建RAG系统需要处理大量推理请求的团队，做AI应用开发需要低延迟推理能力的团队，以及需要在多种硬件平台上部署大模型的场景。

开源地址：https://github.com/vllm-project/vllm

😕/github.com/vllm-project/vllm

加入AMD AI开发者计划！

免费领 50 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

华为灵犀指令集：统一CPU/GPU/AI算力底座的野心与挑战

华为开源灵犀指令集(LinxiISA)，试图在指令集层面统一CPU、GPU和AI加速器计算。该设计采用块结构ISA，通过四种计算引擎实现异构计算统一调度，目标是构建华为产品线的统一技术底座。相比RISC-V的开放标准模式，灵犀采取"全家桶式"开源，但面临访存模型统一、生态建设等挑战。在中美科技竞争背景下，灵犀有望推动算力自主可控，但其成功取决于硬件落地、生态适配和市场接受度。这

AMD开发者中国社区

直接部署YOLOv8权重的风险与优化

对比项直接部署原始权重 (.pt)优化后部署 (ONNX/TensorRT/OM + AIPP)性能低下，无法利用硬件加速，前处理占用CPU。高，利用硬件加速（Tensor Core/NPU），前处理卸载至AIPP。算子兼容性可能遇到不支持的PyTorch算子。经过转换和优化，算子得到引擎良好支持或已替换。数据流稳定性依赖运行时代码，容易因环境差异导致预处理不一致。预处理逻辑部分固化在模型或配置中