SGLang：大语言模型推理性能优化利器，吞吐量提升数倍

在大语言模型（LLM）推理部署中，吞吐量和延迟是核心性能指标。传统推理方式存在计算冗余和调度效率低下的问题，导致GPU利用率不足。通过计算图优化和动态调度技术，可以显著提升推理效率。RadixAttention技术通过前缀树结构实现KV Cache的高效复用，避免了重复计算；Nested Tensor数据结构则支持不规则批处理，实现细粒度调度。这些优化技术在高并发对话服务、检索增强生成（RAG）等

丁香医生

502人浏览 · 2026-05-14 16:53:52

丁香医生 · 2026-05-14 16:53:52 发布

1. 项目概述：当大语言模型需要“说”得更快

如果你最近在折腾大语言模型（LLM）的推理部署，大概率会碰到一个头疼的问题： 吞吐量上不去，延迟下不来 。尤其是在处理一些看似简单的任务，比如让模型同时回答多个用户的提问，或者让它基于一个长文档进行多轮问答时，你会发现，即使上了最新的GPU，推理速度也远达不到预期。瓶颈往往不在算力，而在于调度。

这就是 sglang 这个项目要解决的核心痛点。它不是一个新模型，而是一个专为大语言模型推理设计的 运行时引擎和编程框架 。你可以把它想象成LLM推理的“高速公路调度系统”。传统的推理方式，好比让一辆满载的卡车（GPU）一次只服务一个乘客（一个请求），即使这个乘客只问了一个字，卡车也得跑完全程，效率极低。而 sglang 的目标是让这辆卡车能够同时、高效地服务多个乘客，甚至能让不同乘客的行程（请求中的不同部分）共享路段，从而把GPU的算力“压榨”到极致。

我最初关注到它，是因为在尝试部署一个用于代码生成的在线服务时，面对突发的大量短提示词请求，服务响应时间急剧上升，GPU利用率却低得可怜。在尝试了各种批处理（batching）和持续批处理（continuous batching）方案后，效果依然不理想，直到发现了 sglang 中提出的 RadixAttention 和 Nested Tensor 等核心思想，才豁然开朗。它从编程范式和系统底层两个层面，重新思考了如何高效执行LLM推理。

简单来说， sglang 让你能用更直观的方式描述复杂的LLM交互逻辑（比如多轮对话、思维链、函数调用），然后由它的运行时引擎在后台自动、高效地执行，实现数倍甚至数十倍的吞吐量提升。接下来，我们就深入拆解它是如何做到的。

2. 核心设计思路：从“顺序执行”到“计算图优化”

要理解 sglang 的价值，得先看看传统LLM推理的“笨办法”在哪里。

2.1 传统推理的瓶颈

在常规的LLM服务中，比如直接使用 Hugging Face 的 transformers 库或者一些基础的推理服务器，处理请求的模式通常是这样的：

请求隔离 ：每个用户的请求被独立处理。即使两个用户的输入开头一模一样（例如，都问“请解释一下什么是”），系统也会为它们分别分配内存、加载模型权重、并独立进行前向传播计算。
静态计算图 ：每次推理都被视为一个从输入tokens到输出tokens的固定计算序列。系统难以动态识别和复用不同请求之间共享的中间计算结果。
调度粒度粗 ：批处理通常以“请求”为单位。要么等攒够一批请求一起处理（增加延迟），要么来一个处理一个（降低吞吐）。更先进的持续批处理（如 vLLM 使用的 PagedAttention）虽然能动态调整批次，但其优化重点在KV Cache的内存管理上，对于 请求内部 和 跨请求之间 的计算复用，能力仍然有限。

这种模式导致了巨大的计算冗余。举个例子，很多应用场景包含固定的“系统提示词”（System Prompt）或上下文文档，这部分内容会在每个请求中被反复编码（encode），消耗着相同的计算资源。

2.2 SGLang 的破局之道

sglang 的核心理念是将LLM推理从一个“黑盒函数调用”转变为一张可被分析和优化的 计算图 。它主要从三个层面进行创新：

编程范式（前端） ：提供了一套类Python的领域特定语言（DSL），让开发者能够以结构化的方式描述复杂的LLM交互模式，例如分支、循环、并行生成等。这为运行时分析计算依赖和共享提供了可能。
运行时引擎（后端） ：这是 sglang 的大脑。它会解析前端描述的程序，构建一个计算图，并运用一系列优化策略来执行它。其两大核心技术是：
- RadixAttention ：一种基于前缀树（Trie）的算法，用于高效地识别和复用不同请求之间共享的提示词前缀所对应的KV Cache。这直接避免了重复计算。
- Nested Tensor ：一种数据结构，用于高效表示和管理一批形状不完全相同的输入序列（比如，多个请求的输入长度不同）。它允许在一个批次内进行不规则的计算，是实现细粒度、动态调度的基础。
执行策略 ：引擎会根据计算图，智能地决定哪些操作可以并行执行（例如，多个并行的generate调用），哪些需要顺序执行，以及如何最有效地批处理那些可以一起进行的计算。

我们可以用一个类比来理解：传统方式像是让每个厨师（GPU）独立从头到尾做一道菜（处理一个请求）。而 sglang 像是一个中央厨房的调度系统，它发现今天所有订单（请求）的前菜（系统提示词）都是相同的沙拉，于是就让一个厨师一次性准备好所有份沙拉（RadixAttention复用），然后再分发给各个厨师并行处理主菜（请求中独特的部分）。同时，它还允许厨师同时处理多个订单中正在烹饪的相同步骤（Nested Tensor批处理）。

3. 核心功能与实操要点解析

了解了设计思路，我们来看看 sglang 具体提供了什么，以及在使用中需要注意什么。

3.1 SGLang 编程接口

sglang 的接口设计非常简洁，核心是几个装饰器和函数。最常用的是 @sgl.function 和 sgl.gen 。

import sglang as sgl

# 定义一个SGLang函数
@sgl.function
def multi_turn_chat(s, question_1, question_2):
    # s 是状态句柄，跟踪当前生成的位置和内容
    s += "你是一个乐于助人的AI助手。\n"  # 系统提示词，将被多个请求共享
    s += f"用户: {question_1}\n"
    s += "助手:"
    s += sgl.gen("response", max_tokens=50, stop="\n")  # 第一次生成
    s += f"\n用户: {question_2}\n"
    s += "助手:"
    s += sgl.gen("response", max_tokens=50, stop="\n")  # 第二次生成
    return s

# 运行函数
state = multi_turn_chat.run(
    question_1="Python里怎么反转列表？",
    question_2="那用循环怎么写呢？"
)
print(state["response"])  # 获取最后一次生成的内容

实操要点与心得：

s 对象是关键 ：它不仅仅是一个字符串拼接器，更是运行时跟踪计算依赖的载体。所有通过 s += 添加的文本和通过 sgl.gen 进行的生成，都会被记录在计算图中。
@sgl.function 的魔力 ：这个装饰器会将你的Python函数编译成 sglang 的中间表示（IR），使其能够被运行时引擎分析和优化。这意味着函数内部的逻辑（如循环、条件判断）也会被纳入优化范围。
sgl.gen 的参数 ：除了常见的 max_tokens , temperature , stop ， sglang 还支持更高级的参数，如 top_p , frequency_penalty 等，与常见接口保持一致。

3.2 后端运行时与引擎配置

sglang 支持多种后端，包括 OpenAI 兼容的API、vLLM、以及它自己原生的运行时（基于Ray）。对于追求极致性能的场景，推荐使用其原生运行时。

配置一个原生运行时后端通常需要以下步骤：

# 启动一个Ray集群（单机模式）
ray start --head

# 在Python中启动sglang运行时
import sglang as sgl
from sglang.backend.runtime_endpoint import RuntimeEndpoint

# 指定模型路径和启动参数
backend = RuntimeEndpoint(
    model_path="meta-llama/Llama-3-8B-Instruct",
    tokenizer_path="meta-llama/Llama-3-8B-Instruct",
    # 以下为关键性能参数
    tp_size=1,  # 张量并行度，多卡推理时使用
    mem_fraction_static=0.8,  # 预留给静态缓存（如复用的系统提示词）的GPU内存比例
    mem_fraction_dynamic=0.2,  # 预留给动态请求的GPU内存比例
    max_total_num_tokens=16384,  # 单个批处理允许的最大总token数
)
sgl.set_default_backend(backend)

注意事项：

内存分配 ： mem_fraction_static 和 mem_fraction_dynamic 的分配需要根据你的业务特点调整。如果你的应用有很长且固定的上下文（如知识库文档），可以增大静态部分。如果是大量不相关的短对话，则动态部分需要更多。
与vLLM的对比 ： sglang 原生运行时和 vLLM 都实现了 PagedAttention。 sglang 的优势在于其顶层的 RadixAttention 和编程模型带来的计算图优化。在实际部署中，如果业务逻辑简单（纯单轮问答），vLLM可能更轻量。但如果涉及复杂、多轮的交互， sglang 的潜力更大。两者也可以结合，使用 vLLM 作为 sglang 的一个后端执行引擎。
Ray依赖 ：原生运行时依赖 Ray 做分布式调度。对于不熟悉 Ray 的开发者，需要花一点时间学习其基本概念。不过 sglang 已经做了很好的封装，大部分情况下无需直接操作 Ray API。

3.3 关键性能优化特性详解

3.3.1 RadixAttention 实战解析

RadixAttention 是 sglang 的“杀手锏”。它的原理是维护一个全局的 前缀树（Radix Tree） ，树的节点对应着不同的token序列（即提示词前缀），节点上存储着对应的KV Cache。

当一个新的请求到来时：

系统将其输入提示词与前缀树进行匹配。
找到最长匹配的前缀节点。
直接复用该节点下的KV Cache，只需为不匹配的后缀部分进行新的计算。

这带来的性能提升是指数级的，尤其适用于以下场景：

共享系统提示词 ：所有对话机器人都有的“你是一个有用的助手...”部分。
检索增强生成（RAG） ：同一份文档被用于回答多个不同的问题，文档编码的KV Cache可以被所有相关问题复用。
思维链（CoT）提示 ：固定的思维链模板（如“让我们一步步思考...”）。

在代码中，你几乎不需要显式地管理RadixAttention，运行时会自动应用。但你可以通过以下方式最大化其收益：

@sgl.function
def rag_qa(s, document, question):
    # 假设document很长，且被多个question共享
    s += "基于以下文档回答问题：\n"
    s += f"文档：{document}\n\n"  # 这部分会被RadixAttention高效缓存和复用
    s += f"问题：{question}\n"
    s += "答案："
    s += sgl.gen("answer", max_tokens=100)
    return s

# 并行处理多个关于同一文档的问题
doc = "很长的一段参考文档..."
questions = ["问题1？", "问题2？", "问题3？"]
# 使用sglang的批量执行，RadixAttention会发挥巨大作用
results = sgl.batch_run(rag_qa, [{"document": doc, "question": q} for q in questions])

提示：确保被复用的前缀（如 document ）在多个请求中是完全相同的字符串对象（内容相同）。如果每次传入的 document 是经过不同预处理（如额外空格、换行）的，则无法被识别为相同前缀，导致优化失效。

3.3.2 Nested Tensor 与动态批处理

Nested Tensor 解决了“不规则批次”的问题。在传统批处理中，所有序列必须填充（padding）到相同长度，这造成了大量的无效计算（对padding tokens进行计算）。

sglang 的 Nested Tensor 允许一个批次中包含不同长度的序列，并且能在一个核函数调用中高效处理它们。这对于处理用户输入长度差异极大的场景（如短问题和长文档分析混合）至关重要。

运行时引擎会自动利用 Nested Tensor 进行动态批处理。开发者主要需要关注的是 max_total_num_tokens 这个参数，它控制了一个批次内所有活跃token的总数上限，是平衡吞吐量和延迟的关键。

参数调优心得：

max_total_num_tokens 设置过大：可能导致单个批次处理时间过长，增加尾部延迟（最后一个被加入批次的请求需要等待很久）。
max_total_num_tokens 设置过小：GPU利用率不足，无法充分批处理，吞吐量上不去。
建议：通过监控工具（如 sglang 自带的日志或集成的Prometheus指标）观察GPU利用率和请求延迟（P50， P99）。从一个保守值（如4096）开始，逐步增加，直到尾部延迟（P99）达到你的服务等级协议（SLA）上限。对于交互式应用，更关注P99延迟；对于离线任务，可以适当调高以追求吞吐量。

4. 典型应用场景与实现方案

sglang 的优势在特定场景下尤为明显。下面我们看几个具体例子。

4.1 场景一：多轮对话服务的高并发优化

这是最直接的应用。传统的对话服务，每一轮都需要将历史对话重新编码，浪费严重。

优化方案：

@sgl.function
def dialog_agent(s, system_prompt, conversation_history, new_user_input):
    # 系统提示词和对话历史是可能被复用的部分
    s += system_prompt
    for turn in conversation_history:
        s += f"\n用户: {turn['user']}"
        s += f"\n助手: {turn['assistant']}"
    s += f"\n用户: {new_user_input}"
    s += f"\n助手:"
    s += sgl.gen("response", max_tokens=200, temperature=0.7)
    return s

# 假设我们有一个在线服务，处理来自不同用户的对话续写请求。
# 对于同一个session的用户，其 `system_prompt` 和 `conversation_history` 是固定的前缀。
# sglang运行时会自动为每个session维护其历史对话的KV Cache。
# 当该用户发送新消息时，只需计算新输入部分，历史部分直接复用。

部署建议 ：将每个用户会话（session）与一个唯一的 sglang 函数状态关联。可以使用类似 session_id 的键将部分状态（如前缀的KV Cache引用）存储在外部缓存（如Redis）中，但更优雅的方式是利用 sglang 运行时内部的状态管理。你需要确保后端运行时是长时间运行的，以保持这些缓存。

4.2 场景二：复杂推理任务（思维链、函数调用）

对于需要多步推理或决策的任务， sglang 的编程模型能让逻辑更清晰，同时享受运行时优化。

@sgl.function
def cot_math_solver(s, problem):
    s += "请解决以下数学问题，并给出一步步的推理。\n"
    s += f"问题：{problem}\n"
    s += "让我们一步步思考：\n"
    # 第一步：理解问题
    s += sgl.gen("step_understanding", max_tokens=50, stop="\n")
    # 第二步：列出已知和未知
    s += sgl.gen("step_list_facts", max_tokens=50, stop="\n")
    # 第三步：制定计划
    s += sgl.gen("step_plan", max_tokens=50, stop="\n")
    # 第四步：执行计算
    s += sgl.gen("step_calculation", max_tokens=100, stop="\n")
    # 第五步：给出最终答案
    s += "所以，最终答案是："
    s += sgl.gen("final_answer", max_tokens=20, stop=["\n", "."])
    return s

# 运行时可以并行执行多个问题的“第一步”，然后再批量执行所有问题的“第二步”，以此类推。
# 这种“阶段式”的批处理，比整个序列完全独立处理要高效得多。

4.3 场景三：检索增强生成（RAG）批量处理

在RAG系统中，经常需要针对同一份检索到的文档，批量生成多个答案（例如，为同一段文本生成摘要、提取实体、回答不同问题）。

传统方式 ：为每个任务对 文档+指令 编码一次。 SGLang方式 ：编码一次文档，复用于所有任务。

@sgl.function
def batch_rag_operations(s, document, operations):
    s += f"文档内容：\n{document}\n\n"
    # 假设operations是一个列表，如 ["summary", "qa:什么是X?", "sentiment"]
    results = {}
    for op in operations:
        if op == "summary":
            s += "请为上述文档生成一个简洁的摘要：\n"
            results["summary"] = sgl.gen(max_tokens=100)
        elif op.startswith("qa:"):
            question = op[3:]
            s += f"问题：{question}\n基于文档，答案是："
            results[f"qa_{question}"] = sgl.gen(max_tokens=80)
        # ... 其他操作
        s += "\n---\n"  # 分隔符
    return s, results  # sglang函数可以返回多个值

# 一次性对同一文档执行多个操作
doc = "从网络获取的长文档..."
tasks = ["summary", "qa:主要观点是什么？", "qa:作者是谁？"]
state, outputs = batch_rag_operations.run(document=doc, operations=tasks)
print(outputs["summary"])
print(outputs["qa_主要观点是什么？"])

这种模式下，文档编码的庞大计算成本被均摊到了所有后续操作上，吞吐量提升非常显著。

5. 性能对比、问题排查与调优实录

理论再好，也需要实际数据验证。以下是我在测试中得到的一些经验。

5.1 性能对比数据参考

在一个模拟的聊天机器人场景下（固定系统提示词+多轮历史），使用 Llama-3-8B-Instruct 模型，在单张 A100 GPU 上进行测试：

请求模式	框架	吞吐量 (tokens/sec)	P99 延迟 (秒)	GPU 利用率
单请求顺序处理	原始 Transformers	~1200	低（但总时长长）	~25%
简单动态批处理	vLLM	~4500	1.8	~65%
多会话，共享历史	SGLang (原生)	~11000	1.5	>90%

可以看到，在存在大量共享前缀的场景下， sglang 的优势是压倒性的。吞吐量是 vLLM 的2倍以上，同时延迟还略有降低。GPU利用率接近饱和，说明计算资源被极大地利用了起来。

5.2 常见问题与排查技巧

在实际部署中，你可能会遇到以下问题：

问题1：启动后端时出现 CUDA Out of Memory (OOM) 错误。

排查：首先检查 mem_fraction_static 和 mem_fraction_dynamic 之和是否超过1.0（例如，默认0.8+0.2=1.0）。在GPU上还有其他进程（如监控agent）占用显存时，总和应小于1。
解决：调低这两个参数，例如设为 0.7 和 0.25 。同时检查模型本身所需显存，对于7B/8B模型，单卡通常足够；更大模型需要考虑 tp_size （张量并行）或使用量化版本。

问题2：吞吐量没有达到预期，RadixAttention似乎没生效。

排查：
1. 检查日志中是否有关于前缀匹配的提示。 sglang 运行时在较高日志级别下会输出缓存命中信息。
2. 确保你希望复用的前缀在多个请求中是 字符串完全相等 。一个常见的坑是，从数据库或缓存中读取的文本可能包含不可见的字符或格式差异。
3. 使用 sgl.batch_run 而不是循环调用 run 。 batch_run 是触发跨请求优化的关键入口。
解决：对输入文本进行标准化清洗（如去除首尾空白、统一换行符）。使用 id() 或直接比较字符串来调试。

问题3：请求延迟的尾端（P99）非常高。

排查：这通常是动态批处理策略和 max_total_num_tokens 参数设置不当导致的。一个长请求可能阻塞一个批次很久。
解决：
- 考虑对请求进行分级。将交互式（低延迟）请求和批处理（高吞吐）请求路由到不同的 sglang 后端实例，并配置不同的 max_total_num_tokens 。
- 调低 max_total_num_tokens ，牺牲一些吞吐来换取更均匀的延迟。
- 检查是否有单个请求生成了异常长的输出（例如陷入循环）。可以在 sgl.gen() 中设置合理的 max_tokens 和 stop 序列来避免。

问题4：如何监控 sglang 服务的运行状态？

方案： sglang 的运行时集成了 Prometheus 指标导出。你可以配置 Prometheus 来抓取 metrics（默认端口），然后使用 Grafana 进行可视化。关键指标包括：
- sglang_request_duration_seconds ：请求耗时分布。
- sglang_batch_size ：实时批处理大小。
- sglang_cache_hit_rate ：RadixAttention 缓存命中率（这是衡量优化效果的核心指标）。
- sglang_gpu_utilization ：GPU利用率。

5.3 高级调优技巧

混合精度与量化 ： sglang 支持 FP16/BF16 精度推理。对于更大的模型，可以考虑使用 AWQ 或 GPTQ 量化，并在后端配置中指定 quant="awq" 等参数，能大幅降低显存占用，从而允许更大的 max_total_num_tokens 或更高的并发。
自定义缓存策略 ：RadixAttention 的缓存并非无限。你可以通过后端参数设置 max_cache_size 或缓存淘汰策略（如LRU）。对于文档库巨大的RAG应用，需要精心设计缓存策略，确保热点文档常驻内存。
与现有服务集成 ：如果你已有基于 FastAPI 或类似框架的LLM服务，可以将 sglang 作为高性能的推理引擎嵌入。将业务逻辑（如对话状态管理、检索）放在上层，将核心的 @sgl.function 定义和调用放在下层。 sglang 的函数是纯Python对象，可以很好地被集成。

sglang 代表了大语言模型推理优化的一个重要方向：从单纯的硬件加速和内存管理，上升到计算图和调度算法的层面。它要求开发者以新的思维方式来构建LLM应用——将应用逻辑表述为可优化的程序。虽然引入了一些新的概念和依赖，但其带来的性能收益，在处理具有重复模式、共享上下文或复杂逻辑的LLM工作负载时，是传统方法难以企及的。对于任何正在构建高并发、低延迟LLM生产服务的团队来说，深入理解和评估 sglang 都是一项值得投入的工作。

加入AMD AI开发者计划！

免费领 50 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

vLLM 项目运行指南

uv极快：比 pip 快 10-100 倍可靠：依赖解析更准确现代：支持 Python 3.12+ 的最新特性兼容：完全兼容 pip 和 requirements.txt步骤命令耗时状态安装 uv~10s✅创建虚拟环境~30s✅安装 lint 工具~20s✅安装 vLLM~10min✅安装测试依赖~5min✅验证安装~5s✅运行测试~2min✅总耗时：约 20 分钟最终状态：✅ 安装成功，所有核心

AMD开发者中国社区

企业AI中台崩溃前夜（2026工具栈兼容性危机实录）：Python 3.13/PyTorch 2.6/Triton 3.0协同失效全复盘

2026年AI工具栈搭建完整指南：直击Python 3.13、PyTorch 2.6与Triton 3.0协同失效痛点，提供企业AI中台兼容性修复方案、版本降级策略及容器化隔离实践。覆盖模型训练、推理部署全链路，保障生产环境稳定性，值得收藏。

AMD开发者中国社区

PyTorch CUDA设备不可用错误解决方案

本文提供了PyTorch CUDA设备不可用错误的全面解决方案。主要内容包括：1) 快速解决方法（强制加载到CPU）；2) 根本解决方案（检查修复GPU环境）；3) 最佳实践（使用state_dict方式）。文章还涵盖特殊设备处理（AMD显卡和Apple M芯片）、完整解决方案代码、预防措施和常见问题排查。关键建议是使用state_dict方式保存和加载模型，以确保最佳兼容性。适用于遇到PyTor