2026年国产开源LLM推理框架横评：vLLM、SGLang、LMDeploy与TensorRT-LLM工程选型

少林码僧

223人浏览 · 2026-06-23 00:16:14

少林码僧 · 2026-06-23 00:16:14 发布

背景：为什么推理框架选型比以前更重要

2026年，开源 LLM 推理框架的竞争已进入白热化阶段。GPU 资源成本高昂，推理效率的每一个百分点都直接影响 TCO。与此同时，框架能力分化加剧：有的擅长单卡高并发，有的擅长大规模分布式，有的针对特定 GPU 架构深度优化。本文选取四个主流框架进行深度工程横评：- vLLM：加州大学伯克利分校出品，PagedAttention 开创者- SGLang：斯坦福 Sky Computing Lab，结构化生成和推理图优化的新锐- LMDeploy：上海人工智能实验室出品，国产模型优化深度最佳- TensorRT-LLM：NVIDIA 官方出品，CUDA 优化极致但定制成本高—## 一、框架核心技术对比### 1.1 内存管理机制textvLLM PagedAttention： KV Cache 不连续存储（类似操作系统虚拟内存分页） Block: 固定大小的 KV Cache 块（默认16 tokens/block）优点：减少内存碎片，提升并发数显存利用率：85-92%（vs 朴素实现的 60-70%）SGLang RadixAttention：在 PagedAttention 基础上，共享相同 prefix 的请求复用 KV Cache 特别适合：系统提示词相同的大并发场景（节省40-60%前缀计算） Tree-based KV Cache 管理LMDeploy TurboMind：基于 FasterTransformer 改造，针对 Llama/Qwen 架构深度定制支持 W4A16 量化（4bit权重+16bit激活）国产 GPU（MLU/Ascend）支持度最佳TensorRT-LLM：编译期静态图优化，运行期几乎无调度开销 In-flight batching（inflight fused multi-pass attention）需要为每个模型单独构建 TRT 引擎（.engine文件），部署最重### 1.2 并发与调度模型对比| 特性 | vLLM | SGLang | LMDeploy | TensorRT-LLM ||------|------|--------|----------|-------------|| 调度算法 | Continuous Batching | Continuous + RadixAttn | Continuous Batching | In-flight Batching || KV Cache 共享 | 否 | 是（prefix共享）| 否 | 否 || 动态 batch size | 是 | 是 | 是 | 是 || 投机解码 | 支持 | 支持 | 支持（Draft模型）| 支持 || 多模态支持 | 是（vLLM ≥0.4）| 是 | 是（Qwen-VL）| 部分 || LoRA 热切换 | 是 | 是 | 否 | 否 |—## 二、基准测试（工程估算数据）### 2.1 测试场景说明text测试模型：Qwen2.5-7B-Instruct（BF16）测试硬件：NVIDIA H100 SXM5 80GB（单卡）测试参数： - 输入长度：512 tokens（固定） - 输出长度：256 tokens（固定） - 并发请求数：16 / 32 / 64 / 128 - 测试持续时间：5分钟稳定态### 2.2 吞吐量对比（tokens/s）text并发=16: vLLM: 11,200 tokens/s SGLang: 12,800 tokens/s (+14%) LMDeploy: 13,100 tokens/s (+17%) TensorRT-LLM: 14,500 tokens/s (+29%)并发=64: vLLM: 18,400 tokens/s SGLang: 21,600 tokens/s (+17%) LMDeploy: 19,200 tokens/s (+4%) TensorRT-LLM: 23,800 tokens/s (+29%)并发=128: vLLM: 22,100 tokens/s SGLang: 27,300 tokens/s (+23%)（prefix复用效果显现） LMDeploy: 21,800 tokens/s (-1%) TensorRT-LLM: 26,500 tokens/s (+20%)### 2.3 P99 延迟（ms）text并发=16: vLLM: 680ms SGLang: 620ms (最低) LMDeploy: 590ms (最低) TensorRT-LLM: 540ms (最低)并发=64: vLLM: 1,240ms SGLang: 980ms LMDeploy: 1,180ms TensorRT-LLM: 860ms并发=128: vLLM: 2,800ms SGLang: 1,900ms ← prefix复用大幅降低排队延迟 LMDeploy: 2,600ms TensorRT-LLM: 2,100ms—## 三、各框架部署实战### 3.1 vLLM 部署bash# 安装pip install vllm==0.6.x# 启动 OpenAI-compatible 服务器python -m vllm.entrypoints.openai.api_server \ --model Qwen/Qwen2.5-7B-Instruct \ --host 0.0.0.0 \ --port 8000 \ --gpu-memory-utilization 0.90 \ --max-model-len 8192 \ --max-num-seqs 256 \ --tensor-parallel-size 1 \ --enable-lora \ --max-lora-rank 64 \ --dtype bfloat16``````python# vLLM LoRA 热切换示例from vllm import LLM, SamplingParamsfrom vllm.lora.request import LoRARequestllm = LLM( model="Qwen/Qwen2.5-7B-Instruct", enable_lora=True, max_loras=4, # 最多同时加载4个 LoRA max_lora_rank=64,)# 不同请求使用不同 LoRA 适配器outputs = llm.generate( ["今天天气怎么样？", "Write a Python function for sorting"], SamplingParams(temperature=0.7, max_tokens=512), lora_request=[ LoRARequest("chinese_lora", 1, "path/to/chinese_lora"), LoRARequest("code_lora", 2, "path/to/code_lora"), ])### 3.2 SGLang 部署bash# 安装pip install sglang[all]==0.4.x# 启动（启用 RadixAttention 缓存）python -m sglang.launch_server \ --model-path Qwen/Qwen2.5-7B-Instruct \ --host 0.0.0.0 \ --port 30000 \ --context-length 8192 \ --mem-fraction-static 0.85 \ --enable-torch-compile \ --dtype bfloat16``````python# SGLang 结构化生成（JSON 约束输出）import sglang as sgl@sgl.functiondef extract_info(s, document: str): s += sgl.system("你是一个信息提取助手") s += sgl.user(f"从以下文档中提取结构化信息：\n{document}") s += sgl.assistant( sgl.gen("result", max_tokens=512, # 约束输出为合法 JSON regex=r'\{"name": ".+", "date": "\d{4}-\d{2}-\d{2}", "amount": \d+\}') )# 批量并发调用（SGLang 自动批处理）states = extract_info.run_batch( [{"document": doc} for doc in documents], temperature=0, num_threads=32,)### 3.3 LMDeploy 部署bash# 安装pip install lmdeploy==0.6.x# 方式1：TurboMind 引擎（推荐，吞吐量最优）lmdeploy serve api_server \ Qwen/Qwen2.5-7B-Instruct \ --backend turbomind \ --server-port 23333 \ --tp 1 \ --cache-max-entry-count 0.85 \ --max-batch-size 128# 方式2：W4A16 量化部署（显存减半）lmdeploy lite auto_awq \ Qwen/Qwen2.5-7B-Instruct \ --work-dir ./qwen-7b-awq-w4lmdeploy serve api_server \ ./qwen-7b-awq-w4 \ --model-format awq \ --backend turbomind``````python# LMDeploy Python API 调用from lmdeploy import pipeline, TurbomindEngineConfig# 配置 TurboMind 引擎engine_config = TurbomindEngineConfig( tp=1, cache_max_entry_count=0.85, max_batch_size=128, quant_policy=0, # 0=不量化, 4=W4A16, 8=W8A8)pipe = pipeline("Qwen/Qwen2.5-7B-Instruct", backend_config=engine_config)# 批量推理responses = pipe( [{"role": "user", "content": q} for q in questions], gen_config={"max_new_tokens": 512, "temperature": 0.7})### 3.4 TensorRT-LLM 部署bash# 步骤1：转换模型权重为 TRT 格式python convert_checkpoint.py \ --model_dir Qwen/Qwen2.5-7B-Instruct \ --output_dir ./trt_ckpt/qwen-7b \ --dtype bfloat16 \ --tp_size 1# 步骤2：编译 TRT 引擎（耗时较长，约10-30分钟）trtllm-build \ --checkpoint_dir ./trt_ckpt/qwen-7b \ --output_dir ./trt_engine/qwen-7b \ --gpt_attention_plugin bfloat16 \ --paged_kv_cache enable \ --max_batch_size 128 \ --max_input_len 4096 \ --max_output_len 1024 \ --strongly_typed# 步骤3：启动 Triton 推理服务python launch_triton_server.py \ --engine_dir ./trt_engine/qwen-7b \ --tokenizer_dir Qwen/Qwen2.5-7B-Instruct \ --http_port 8000—## 四、工程选型决策矩阵| 维度 | vLLM | SGLang | LMDeploy | TensorRT-LLM ||------|------|--------|----------|-------------|| 部署复杂度 | ★★☆☆☆ | ★★☆☆☆ | ★★☆☆☆ | ★★★★★ || 吞吐量（通用）| ★★★☆☆ | ★★★★☆ | ★★★★☆ | ★★★★★ || 低并发延迟 | ★★★☆☆ | ★★★★☆ | ★★★★★ | ★★★★★ || LoRA 支持 | ★★★★★ | ★★★★☆ | ★★☆☆☆ | ★☆☆☆☆ || 生态/社区 | ★★★★★ | ★★★★☆ | ★★★☆☆ | ★★★☆☆ || 量化支持 | ★★★★☆ | ★★★☆☆ | ★★★★★ | ★★★★☆ || 国产GPU兼容 | ★★☆☆☆ | ★★☆☆☆ | ★★★★★ | ★☆☆☆☆ || 结构化生成 | ★★★☆☆ | ★★★★★ | ★★☆☆☆ | ★☆☆☆☆ |### 选型建议text✅ 优先选 vLLM 的场景： - 需要 LoRA 多适配器动态切换 - 快速原型验证，社区支持需求高 - 混合模型（text+vision）服务✅ 优先选 SGLang 的场景： - 大量请求共享相同系统提示词（客服、RAG） - 需要结构化/约束输出（JSON Schema、正则） - 高并发延迟敏感场景✅ 优先选 LMDeploy 的场景： - 国产 GPU（昇腾、寒武纪）部署 - 需要激进量化（W4A16 显存减半） - Qwen/InternLM 系列模型优先✅ 优先选 TensorRT-LLM 的场景： - 吞吐量是第一优先级 - 模型固定不频繁更换 - 有专职 NVIDIA 工程师支持的团队—## 总结2026年四大主流 LLM 推理框架已各有明确的工程定位：vLLM 是生态最完整的全能选手，SGLang 在高并发和结构化生成上独树一帜，LMDeploy 是国产生态的最佳搭档，TensorRT-LLM 是吞吐量的性能天花板但部署成本最高。建议团队以 vLLM 作为默认起点，根据具体业务瓶颈（延迟/吞吐/量化/国产GPU）再针对性切换到专项优化的框架。

加入AMD AI开发者计划！

免费领 200 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

生产级 LLM 推理框架横评：vLLM、SGLang 等 5 大方案全维度对比

AMD开发者中国社区

FlagOS Day 0 跨芯适配 GLM-5.2：发布即覆盖四款芯片，支持 vLLM + SGLang双插件

同时，FlagGems 新增 6 大领域算子库——FlagDNN、FlagBlas、FlagSparse、FlagFFT、FlagTensor、FlagAudio，覆盖科学计算与信号处理场景，共计 102 个领域算子，从"大模型专用"走向全领域覆盖。厂商目录放置后由插件自动发现加载，vLLM-Plugin-FL、SGLang-Plugin-FL、Megatron-LM-FL、Transformer