登录社区云,与社区用户共同成长
邀请您加入社区
本文介绍了如何利用 SGLang 框架高效部署小米 MiMo-7B-RL 大模型。SGLang 凭借 RadixAttention、Cuda Graph 捕获和 FlashInfer 后端支持,成为新一代推理加速工具。作者详细展示了在 NVIDIA A800-80GB 服务器上的部署流程,包括环境配置、模型下载、服务启动和性能测试。实测显示,SGLang 能快速加载模型(4.4秒加载14.21GB
是 OpenDataLab 发布的最新文档解析模型,专注于的高精度转换任务。📄 论文:arxiv:2604.04771该模型基于 Qwen2-VL 1.2B 架构,通过大规模高质量数据工程,在 OmniDocBench v1.6 上超越 GPT-4o、Gemini 等商业模型,创下开源文档解析新基准。数据工程 > 参数规模。在 PDF 解析这个垂直任务上,1.2B 参数的专精模型完全可以超越通用
你的团队花了三周时间把大模型服务部署上线,结果压测一跑,延迟比预期高三倍,GPU显存占用飙到98%却还在排队。你打开两个引擎的GitHub页面,一个说自己吞吐最高,另一个说自己内存效率最优——benchmark数据在不同文章里互相矛盾。
SGLang、TensorRT-LLM和vLLM是三种主流的大模型推理框架,各具特色。SGLang专注于结构化输出和高效缓存,适合多轮对话场景;TensorRT-LLM依托NVIDIA硬件加速,优化推理速度和GPU利用率;vLLM则通过分页注意力机制提升显存效率,适用于高并发场景。三者分别在编程灵活性、硬件适配性和资源管理方面具有突出优势,为不同应用需求提供了多样化的解决方案。
本文系统梳理了当前主流的大模型推理部署框架,包括vLLM、SGLang、TensorRT-LLM、Ollama和XInference等。这些框架在核心技术、性能优化和应用场景上各有特色:vLLM通过PagedAttention和连续批处理提升显存利用率;SGLang利用Radix树优化缓存复用;TensorRT-LLM深度优化NVIDIA GPU性能;Ollama简化本地部署;XInference
很多人做本地部署选型时,第一反应是“27B dense 一定比 35B MoE 更小、更轻、更好跑”。但我在单卡 `L20 48GB` 上把 `llama.cpp`、`SGLang`、`vLLM` 三条路线都跑了一遍后,结论恰好相反:`Qwen3.6-35B-A3B` 这颗 MoE 在长上下文服务场景里反而更好部署,`Qwen3.6-27B` dense 不仅没有更轻,某些路线甚至更难落地。
纯 CUDA kernel 库,专攻 Attention 计算性能,被 vLLM / SGLang 作为后端调用。2. Ragged Tensor Attention(变长序列无 Padding)3. Split-K Attention(Decode 专用)1. RadixAttention(前缀共享的革命性实现)显存 -99%(同 prefix),TTFT -5x。1. PagedAttenti
本文介绍了如何在本地服务器上使用SGLang框架部署Qwen3-8B大语言模型。SGLang作为专为LLM/VLM设计的高性能推理框架,具有RadixAttention机制、FlashInfer后端优化等优势。文章详细说明了环境配置(Python 3.10+、Torch 2.6.0等)、通过ModelScope下载模型、服务启动参数配置等关键步骤。重点分析了SGLang的初始化过程,包括模型检测、
这篇文章介绍了如何实现一个高效的KV Cache机制来优化大语言模型推理性能。主要内容包括:1)设计了一个连续张量版的KV Cache类,采用(num_layers, max_seq_len, num_kv_heads, head_dim)的内存布局以优化访问效率;2)详细解释了这种维度排列如何实现零拷贝和连续内存访问;3)展示了如何改造attention模块,新增store和get操作与cach
本文深入解析了现代LLM推理引擎中的关键技术问题,重点探讨了prefill与decode阶段的差异及其原理。文章指出:1) prefill阶段一次性处理全部prompt tokens,而decode阶段需循环处理,这是由自回归生成特性决定的;2) prefill阶段只取logits[-1]是因为因果attention机制使前面位置的预测结果已知;3) decode阶段需要反复拼接和重算,因为新to
在大语言模型(LLM)推理中,预填充(Prefill)阶段往往是性能瓶颈:输入序列需先转换为 KV Cache,才能进行后续解码。当多个请求共享相同前缀时,对应的 KV Cache 完全一致,存在大量重复计算。为解决这一问题,SGLang 引入了 RadixAttention,利用空闲 GPU 内存缓存并复用前缀 KV Cache;进一步地,HiCache 将这一思路扩展至宿主机内存(Host M
管理kvcache的两种工具,以及他们的原理
vLLM解决了"如何在高并发下管好内存"SGLang解决了"如何在高复用下省掉计算"llama.cpp解决了"如何在普通硬件上跑得飞快"解决了"如何用有限显存跑大模型"理解这些引擎背后的资源调度逻辑,比单纯比拼 Benchmark 分数更能指导实际业务的落地。原型阶段:使用 Transformers 快速验证开发阶段:切换到 vLLM/SGLang 进行性能调优生产阶段:根据业务特征选择最优引擎并
本文介绍了构建现代LLM推理引擎的核心概念与技术要点。主要内容包括: 推理引擎的核心任务是将prompt转换为token流生成服务,与训练框架在输入、计算模式、显存关注点等方面存在显著差异。 推理过程必须分为prefill和decode两个阶段,源于transformer的因果掩码机制导致token生成存在串行依赖。这两个阶段在计算特性、优化重点和调度策略上完全不同。 KV Cache是推理优化的
这篇文章详细介绍了如何从零开始构建Qwen3-0.6B大语言模型的推理引擎。主要内容包括: 模型整体架构:由embedding层、28层decoder、RMSNorm层和lm_head组成 核心模块详解: Embedding层实现token到向量的转换 RMSNorm层用于稳定训练和推理 每层decoder包含自注意力机制和MLP两部分 关键技术点: 采用pre-norm残差结构 使用GQA(分组
本文面向:手上有 24GB 级别消费/工作站显卡,准备在本地或小规模生产环境跑大模型的工程师。涉及框架版本:vLLM 0.6.x、SGLang 0.3.x、Ollama 0.5.x(2026 年 5 月)。
SGLang HiRadix Cache KV Cache offload
SGLang PD分离流程细节
SGLang是一个基于Python的分布式计算框架,通过多进程架构突破GIL限制。它支持三种并行计算模式:张量并行(TP)、流水线并行(PP)和数据并行(DP),以及针对特定模型的局部计算并行。文章详细介绍了TP模式的单机多卡部署方法,展示了服务启动日志和API调用示例,并简要说明了多机多卡集群的配置方式。SGLang能够有效利用多GPU资源,为大规模语言模型推理提供高效的分布式计算支持。
flashinfer_mla_disable_ragged: 是否禁用FlashInfer MLA中的ragged,默认为False。triton_attention_reduce_in_fp32: 是否在FP32中减少Triton注意力,默认为False。debug_tensor_dump_output_folder: 调试张量转储输出文件夹,未指定时为None。debug_tensor_dum
KV Cache 自动复用,多请求共享前缀显著降低显存占用吞吐量高:相比 vLLM 在多并发场景下通常有 1.5x~3x 的吞吐优势兼容 OpenAI API:启动后直接可以用接口支持主流模型:LLaMA、Qwen、Mistral、DeepSeek、Gemma 等用户请求↓FastAPI(你的业务层)↓SGLang Server(推理引擎)↓GPU(模型权重)步骤内容✅ 安装 SGLangpip
这种分离式的设计保证了系统的扩展性和模块间的解耦。在具体的特性实现上,Mini-SGLang开箱即支持Llama-3和Qwen-3等主流模型,并且通过OpenAI兼容的API,使得用户可以无缝迁移现有的应用。在NVIDIA Hopper架构的GPU上,它采用了FlashAttention-3作为预填充(Prefill)阶段的内核,利用其极高的并行度加速首词生成。上图展示了开启重叠调度后的执行情况。
SGLang是一个针对大型语言模型和视觉语言模型的高效推理框架,通过协同优化前后端架构提升性能。其核心特性包括:高效的RadixAttention前缀缓存、FP8量化推理、多节点张量并行等技术优化计算效率;支持多模态输入和结构化生成的X-Grammar功能;以及通过Rust重构的智能负载均衡器降低服务开销。在DeepSeek模型优化中,SGLang解决了MLA架构冗余计算、高并发内存瓶颈等问题,使
此地址实际的位置是docker容器内部的以下地址,此处用的modelscope,huggingface有同样的目录结构。自定义服务启动后的模型名字为Qwen/Qwen3-VL-4B-Thinking。分配GPU显存80%给模型使用,默认值0.9。添加tail -f /dev/null。或者访问sglang官方网站查看。
sglang
——sglang
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net