背景:为什么推理框架选型比以前更重要

2026年,开源 LLM 推理框架的竞争已进入白热化阶段。GPU 资源成本高昂,推理效率的每一个百分点都直接影响 TCO。与此同时,框架能力分化加剧:有的擅长单卡高并发,有的擅长大规模分布式,有的针对特定 GPU 架构深度优化。本文选取四个主流框架进行深度工程横评:- vLLM:加州大学伯克利分校出品,PagedAttention 开创者- SGLang:斯坦福 Sky Computing Lab,结构化生成和推理图优化的新锐- LMDeploy:上海人工智能实验室出品,国产模型优化深度最佳- TensorRT-LLM:NVIDIA 官方出品,CUDA 优化极致但定制成本高—## 一、框架核心技术对比### 1.1 内存管理机制textvLLM PagedAttention: KV Cache 不连续存储(类似操作系统虚拟内存分页) Block: 固定大小的 KV Cache 块(默认16 tokens/block) 优点:减少内存碎片,提升并发数 显存利用率:85-92%(vs 朴素实现的 60-70%)SGLang RadixAttention: 在 PagedAttention 基础上,共享相同 prefix 的请求复用 KV Cache 特别适合:系统提示词相同的大并发场景(节省40-60%前缀计算) Tree-based KV Cache 管理LMDeploy TurboMind: 基于 FasterTransformer 改造,针对 Llama/Qwen 架构深度定制 支持 W4A16 量化(4bit权重+16bit激活) 国产 GPU(MLU/Ascend)支持度最佳TensorRT-LLM: 编译期静态图优化,运行期几乎无调度开销 In-flight batching(inflight fused multi-pass attention) 需要为每个模型单独构建 TRT 引擎(.engine文件),部署最重### 1.2 并发与调度模型对比| 特性 | vLLM | SGLang | LMDeploy | TensorRT-LLM ||------|------|--------|----------|-------------|| 调度算法 | Continuous Batching | Continuous + RadixAttn | Continuous Batching | In-flight Batching || KV Cache 共享 | 否 | 是(prefix共享)| 否 | 否 || 动态 batch size | 是 | 是 | 是 | 是 || 投机解码 | 支持 | 支持 | 支持(Draft模型)| 支持 || 多模态支持 | 是(vLLM ≥0.4)| 是 | 是(Qwen-VL)| 部分 || LoRA 热切换 | 是 | 是 | 否 | 否 |—## 二、基准测试(工程估算数据)### 2.1 测试场景说明text测试模型:Qwen2.5-7B-Instruct(BF16)测试硬件:NVIDIA H100 SXM5 80GB(单卡)测试参数: - 输入长度:512 tokens(固定) - 输出长度:256 tokens(固定) - 并发请求数:16 / 32 / 64 / 128 - 测试持续时间:5分钟稳定态### 2.2 吞吐量对比(tokens/s)text并发=16: vLLM: 11,200 tokens/s SGLang: 12,800 tokens/s (+14%) LMDeploy: 13,100 tokens/s (+17%) TensorRT-LLM: 14,500 tokens/s (+29%)并发=64: vLLM: 18,400 tokens/s SGLang: 21,600 tokens/s (+17%) LMDeploy: 19,200 tokens/s (+4%) TensorRT-LLM: 23,800 tokens/s (+29%)并发=128: vLLM: 22,100 tokens/s SGLang: 27,300 tokens/s (+23%)(prefix复用效果显现) LMDeploy: 21,800 tokens/s (-1%) TensorRT-LLM: 26,500 tokens/s (+20%)### 2.3 P99 延迟(ms)text并发=16: vLLM: 680ms SGLang: 620ms (最低) LMDeploy: 590ms (最低) TensorRT-LLM: 540ms (最低)并发=64: vLLM: 1,240ms SGLang: 980ms LMDeploy: 1,180ms TensorRT-LLM: 860ms并发=128: vLLM: 2,800ms SGLang: 1,900ms ← prefix复用大幅降低排队延迟 LMDeploy: 2,600ms TensorRT-LLM: 2,100ms—## 三、各框架部署实战### 3.1 vLLM 部署bash# 安装pip install vllm==0.6.x# 启动 OpenAI-compatible 服务器python -m vllm.entrypoints.openai.api_server \ --model Qwen/Qwen2.5-7B-Instruct \ --host 0.0.0.0 \ --port 8000 \ --gpu-memory-utilization 0.90 \ --max-model-len 8192 \ --max-num-seqs 256 \ --tensor-parallel-size 1 \ --enable-lora \ --max-lora-rank 64 \ --dtype bfloat16``````python# vLLM LoRA 热切换示例from vllm import LLM, SamplingParamsfrom vllm.lora.request import LoRARequestllm = LLM( model="Qwen/Qwen2.5-7B-Instruct", enable_lora=True, max_loras=4, # 最多同时加载4个 LoRA max_lora_rank=64,)# 不同请求使用不同 LoRA 适配器outputs = llm.generate( ["今天天气怎么样?", "Write a Python function for sorting"], SamplingParams(temperature=0.7, max_tokens=512), lora_request=[ LoRARequest("chinese_lora", 1, "path/to/chinese_lora"), LoRARequest("code_lora", 2, "path/to/code_lora"), ])### 3.2 SGLang 部署bash# 安装pip install sglang[all]==0.4.x# 启动(启用 RadixAttention 缓存)python -m sglang.launch_server \ --model-path Qwen/Qwen2.5-7B-Instruct \ --host 0.0.0.0 \ --port 30000 \ --context-length 8192 \ --mem-fraction-static 0.85 \ --enable-torch-compile \ --dtype bfloat16``````python# SGLang 结构化生成(JSON 约束输出)import sglang as sgl@sgl.functiondef extract_info(s, document: str): s += sgl.system("你是一个信息提取助手") s += sgl.user(f"从以下文档中提取结构化信息:\n{document}") s += sgl.assistant( sgl.gen("result", max_tokens=512, # 约束输出为合法 JSON regex=r'\{"name": ".+", "date": "\d{4}-\d{2}-\d{2}", "amount": \d+\}') )# 批量并发调用(SGLang 自动批处理)states = extract_info.run_batch( [{"document": doc} for doc in documents], temperature=0, num_threads=32,)### 3.3 LMDeploy 部署bash# 安装pip install lmdeploy==0.6.x# 方式1:TurboMind 引擎(推荐,吞吐量最优)lmdeploy serve api_server \ Qwen/Qwen2.5-7B-Instruct \ --backend turbomind \ --server-port 23333 \ --tp 1 \ --cache-max-entry-count 0.85 \ --max-batch-size 128# 方式2:W4A16 量化部署(显存减半)lmdeploy lite auto_awq \ Qwen/Qwen2.5-7B-Instruct \ --work-dir ./qwen-7b-awq-w4lmdeploy serve api_server \ ./qwen-7b-awq-w4 \ --model-format awq \ --backend turbomind``````python# LMDeploy Python API 调用from lmdeploy import pipeline, TurbomindEngineConfig# 配置 TurboMind 引擎engine_config = TurbomindEngineConfig( tp=1, cache_max_entry_count=0.85, max_batch_size=128, quant_policy=0, # 0=不量化, 4=W4A16, 8=W8A8)pipe = pipeline("Qwen/Qwen2.5-7B-Instruct", backend_config=engine_config)# 批量推理responses = pipe( [{"role": "user", "content": q} for q in questions], gen_config={"max_new_tokens": 512, "temperature": 0.7})### 3.4 TensorRT-LLM 部署bash# 步骤1:转换模型权重为 TRT 格式python convert_checkpoint.py \ --model_dir Qwen/Qwen2.5-7B-Instruct \ --output_dir ./trt_ckpt/qwen-7b \ --dtype bfloat16 \ --tp_size 1# 步骤2:编译 TRT 引擎(耗时较长,约10-30分钟)trtllm-build \ --checkpoint_dir ./trt_ckpt/qwen-7b \ --output_dir ./trt_engine/qwen-7b \ --gpt_attention_plugin bfloat16 \ --paged_kv_cache enable \ --max_batch_size 128 \ --max_input_len 4096 \ --max_output_len 1024 \ --strongly_typed# 步骤3:启动 Triton 推理服务python launch_triton_server.py \ --engine_dir ./trt_engine/qwen-7b \ --tokenizer_dir Qwen/Qwen2.5-7B-Instruct \ --http_port 8000—## 四、工程选型决策矩阵| 维度 | vLLM | SGLang | LMDeploy | TensorRT-LLM ||------|------|--------|----------|-------------|| 部署复杂度 | ★★☆☆☆ | ★★☆☆☆ | ★★☆☆☆ | ★★★★★ || 吞吐量(通用)| ★★★☆☆ | ★★★★☆ | ★★★★☆ | ★★★★★ || 低并发延迟 | ★★★☆☆ | ★★★★☆ | ★★★★★ | ★★★★★ || LoRA 支持 | ★★★★★ | ★★★★☆ | ★★☆☆☆ | ★☆☆☆☆ || 生态/社区 | ★★★★★ | ★★★★☆ | ★★★☆☆ | ★★★☆☆ || 量化支持 | ★★★★☆ | ★★★☆☆ | ★★★★★ | ★★★★☆ || 国产GPU兼容 | ★★☆☆☆ | ★★☆☆☆ | ★★★★★ | ★☆☆☆☆ || 结构化生成 | ★★★☆☆ | ★★★★★ | ★★☆☆☆ | ★☆☆☆☆ |### 选型建议text✅ 优先选 vLLM 的场景: - 需要 LoRA 多适配器动态切换 - 快速原型验证,社区支持需求高 - 混合模型(text+vision)服务✅ 优先选 SGLang 的场景: - 大量请求共享相同系统提示词(客服、RAG) - 需要结构化/约束输出(JSON Schema、正则) - 高并发延迟敏感场景✅ 优先选 LMDeploy 的场景: - 国产 GPU(昇腾、寒武纪)部署 - 需要激进量化(W4A16 显存减半) - Qwen/InternLM 系列模型优先✅ 优先选 TensorRT-LLM 的场景: - 吞吐量是第一优先级 - 模型固定不频繁更换 - 有专职 NVIDIA 工程师支持的团队—## 总结2026年四大主流 LLM 推理框架已各有明确的工程定位:vLLM 是生态最完整的全能选手,SGLang 在高并发和结构化生成上独树一帜,LMDeploy 是国产生态的最佳搭档,TensorRT-LLM 是吞吐量的性能天花板但部署成本最高。建议团队以 vLLM 作为默认起点,根据具体业务瓶颈(延迟/吞吐/量化/国产GPU)再针对性切换到专项优化的框架。

Logo

免费领 200 小时云算力,进群参与显卡、AI PC 幸运抽奖

更多推荐