登录社区云,与社区用户共同成长
邀请您加入社区
本文介绍了如何在本地服务器上使用SGLang框架部署Qwen3-8B大语言模型。SGLang作为专为LLM/VLM设计的高性能推理框架,具有RadixAttention机制、FlashInfer后端优化等优势。文章详细说明了环境配置(Python 3.10+、Torch 2.6.0等)、通过ModelScope下载模型、服务启动参数配置等关键步骤。重点分析了SGLang的初始化过程,包括模型检测、
这篇文章介绍了如何实现一个高效的KV Cache机制来优化大语言模型推理性能。主要内容包括:1)设计了一个连续张量版的KV Cache类,采用(num_layers, max_seq_len, num_kv_heads, head_dim)的内存布局以优化访问效率;2)详细解释了这种维度排列如何实现零拷贝和连续内存访问;3)展示了如何改造attention模块,新增store和get操作与cach
本文深入解析了现代LLM推理引擎中的关键技术问题,重点探讨了prefill与decode阶段的差异及其原理。文章指出:1) prefill阶段一次性处理全部prompt tokens,而decode阶段需循环处理,这是由自回归生成特性决定的;2) prefill阶段只取logits[-1]是因为因果attention机制使前面位置的预测结果已知;3) decode阶段需要反复拼接和重算,因为新to
在大语言模型(LLM)推理中,预填充(Prefill)阶段往往是性能瓶颈:输入序列需先转换为 KV Cache,才能进行后续解码。当多个请求共享相同前缀时,对应的 KV Cache 完全一致,存在大量重复计算。为解决这一问题,SGLang 引入了 RadixAttention,利用空闲 GPU 内存缓存并复用前缀 KV Cache;进一步地,HiCache 将这一思路扩展至宿主机内存(Host M
管理kvcache的两种工具,以及他们的原理
vLLM解决了"如何在高并发下管好内存"SGLang解决了"如何在高复用下省掉计算"llama.cpp解决了"如何在普通硬件上跑得飞快"解决了"如何用有限显存跑大模型"理解这些引擎背后的资源调度逻辑,比单纯比拼 Benchmark 分数更能指导实际业务的落地。原型阶段:使用 Transformers 快速验证开发阶段:切换到 vLLM/SGLang 进行性能调优生产阶段:根据业务特征选择最优引擎并
本文介绍了构建现代LLM推理引擎的核心概念与技术要点。主要内容包括: 推理引擎的核心任务是将prompt转换为token流生成服务,与训练框架在输入、计算模式、显存关注点等方面存在显著差异。 推理过程必须分为prefill和decode两个阶段,源于transformer的因果掩码机制导致token生成存在串行依赖。这两个阶段在计算特性、优化重点和调度策略上完全不同。 KV Cache是推理优化的
这篇文章详细介绍了如何从零开始构建Qwen3-0.6B大语言模型的推理引擎。主要内容包括: 模型整体架构:由embedding层、28层decoder、RMSNorm层和lm_head组成 核心模块详解: Embedding层实现token到向量的转换 RMSNorm层用于稳定训练和推理 每层decoder包含自注意力机制和MLP两部分 关键技术点: 采用pre-norm残差结构 使用GQA(分组
本文面向:手上有 24GB 级别消费/工作站显卡,准备在本地或小规模生产环境跑大模型的工程师。涉及框架版本:vLLM 0.6.x、SGLang 0.3.x、Ollama 0.5.x(2026 年 5 月)。
SGLang HiRadix Cache KV Cache offload
SGLang PD分离流程细节
SGLang是一个基于Python的分布式计算框架,通过多进程架构突破GIL限制。它支持三种并行计算模式:张量并行(TP)、流水线并行(PP)和数据并行(DP),以及针对特定模型的局部计算并行。文章详细介绍了TP模式的单机多卡部署方法,展示了服务启动日志和API调用示例,并简要说明了多机多卡集群的配置方式。SGLang能够有效利用多GPU资源,为大规模语言模型推理提供高效的分布式计算支持。
flashinfer_mla_disable_ragged: 是否禁用FlashInfer MLA中的ragged,默认为False。triton_attention_reduce_in_fp32: 是否在FP32中减少Triton注意力,默认为False。debug_tensor_dump_output_folder: 调试张量转储输出文件夹,未指定时为None。debug_tensor_dum
KV Cache 自动复用,多请求共享前缀显著降低显存占用吞吐量高:相比 vLLM 在多并发场景下通常有 1.5x~3x 的吞吐优势兼容 OpenAI API:启动后直接可以用接口支持主流模型:LLaMA、Qwen、Mistral、DeepSeek、Gemma 等用户请求↓FastAPI(你的业务层)↓SGLang Server(推理引擎)↓GPU(模型权重)步骤内容✅ 安装 SGLangpip
这种分离式的设计保证了系统的扩展性和模块间的解耦。在具体的特性实现上,Mini-SGLang开箱即支持Llama-3和Qwen-3等主流模型,并且通过OpenAI兼容的API,使得用户可以无缝迁移现有的应用。在NVIDIA Hopper架构的GPU上,它采用了FlashAttention-3作为预填充(Prefill)阶段的内核,利用其极高的并行度加速首词生成。上图展示了开启重叠调度后的执行情况。
SGLang是一个针对大型语言模型和视觉语言模型的高效推理框架,通过协同优化前后端架构提升性能。其核心特性包括:高效的RadixAttention前缀缓存、FP8量化推理、多节点张量并行等技术优化计算效率;支持多模态输入和结构化生成的X-Grammar功能;以及通过Rust重构的智能负载均衡器降低服务开销。在DeepSeek模型优化中,SGLang解决了MLA架构冗余计算、高并发内存瓶颈等问题,使
此地址实际的位置是docker容器内部的以下地址,此处用的modelscope,huggingface有同样的目录结构。自定义服务启动后的模型名字为Qwen/Qwen3-VL-4B-Thinking。分配GPU显存80%给模型使用,默认值0.9。添加tail -f /dev/null。或者访问sglang官方网站查看。
本文基于真实生产环境的运行日志和 SGLang 源码深度分析,完整拆解 SGLang 框架针对 Wan2.1 的全套加速技术体系。通过合理配置,我们成功将720P 视频生成时间从 49 分 33 秒压缩到 1 分 13 秒,加速比达到惊人的 40 倍
本文介绍了Transformer模型推理的核心流程和关键技术。推理过程分为prefill和自回归两个阶段:prefill阶段完成分词、向量化和位置编码,生成首个token;自回归阶段通过迭代生成后续token直至结束。针对推理特点,需要专门的推理引擎来构建计算图、加载权重并提供API服务,同时支持KV缓存优化和多机多卡并行计算以提升效率。Sglang作为推理引擎的实现,重点解决了算子构建、权重加载
RAGFlow全面接入MinerU 2.0,通过pipeline、vlm-transformers、vlm-sglang三种解析模式的灵活适配,不仅解决了复杂文档解析的精度瓶颈,更通过架构层面的深度整合,降低了企业级RAG应用的落地门槛。对于开发者而言,这一升级意味着无需再为文档解析环节单独选型、开发适配代码,可直接基于RAGFlow构建端到端的高精度RAG系统。后续RAGFlow还将持续优化Mi
目前,基于MUSA的SGLang已支持DeepSeek、Qwen、GLM等主流大模型及Wan、LTX等视频生成模型,在MTT S5000等硬件上实现真正的“开箱即用”与无缝加速,显著降低了开发者的算力迁移门槛。通过与SGLang、TileLang、Triton、Mooncake等开源社区的紧密协作,摩尔线程不仅推动了MUSA平台与主流AI框架的深度适配,更。,未来12个月应优先建立跨层级的统一抽象
大模型在当今人工智能领域占据着核心地位,其强大的能力正不断推动各行业的变革与创新。无论是对人工智能充满好奇的初学者,还是希望在该领域深入发展的专业人士,掌握大模型相关知识和技能都至关重要。以下为你详细介绍 2025 年从零基础入门到精通大模型的学习路线。
本文精选7个GitHub优质仓库,帮助开发者系统学习大模型与深度学习。从Karpathy的神经网络基础实现,到Hugging Face的Transformers应用,再到FastAI实战方法、MLOps落地、系统设计、深度学习理论课程和生成式AI前沿资源,覆盖从入门到进阶全路径。无论你是初学者还是想提升实战能力,这些资源都能帮你构建完整知识体系,2026年紧跟AI发展潮流。
文章对比了大语言模型(LLM)和AI智能体(AI Agent)的技术架构、能力边界和应用场景差异。大模型是基于Transformer的单体架构,擅长认知智能;AI智能体是多模块系统架构,具备感知-规划-行动能力,擅长执行智能。大模型是"大脑",提供理解和生成能力;智能体是"身体",提供感知、规划和执行能力。二者互补而非替代,企业应结合使用,构建真正的智能劳动力系统。
依托面向多种AI芯片的统一开源系统软件栈众智FlagOS的跨芯能力,众智FlagOS社区在Qwen3.5模型发布后,即完成了397B MoE多模态模型的全量适配、精度对齐、及多芯片迁移,实现Qwen3.5在多款芯片的同步适配上线。
部署SGLang推理引擎,加载千问3.5-57B模型
这篇文章不做空泛 benchmark,而是基于四个主流推理框架的官方 README、安装文档、Quick Start 和最新发布信息,拆解 vLLM、SGLang、TensorRT-LLM、llama.cpp 在硬件边界、OpenAI 兼容接口、工程复杂度和适用场景上的真实差异,帮助读者按自己的部署目标做第一轮正确选型。
清华镜像上的软件包版本号会随着安全更新而变化。
本文详细介绍了使用sglang在本地部署Qwen3.5模型的全过程,包括环境准备、启动命令解析、Claude Code配置及常见问题解决方案。重点阐述了sglang的高效推理能力,提供了详细的参数配置说明,并分享了通过LiteLLM实现OpenAI格式转换的技巧。文章还记录了Docker部署方案和A3B-GPTQ-Int4模型部署失败的经验教训,最终推荐了Qwen3.5-9B作为稳定可用的本地部署
摘要:GPUStack、OpenBMB和SGLang社区联合举办线下Meetup,聚焦大模型部署中的异构GPU管理与推理效率优化等核心挑战。活动将分享下一代稀疏注意力系统设计、SGLang最新路线图、NVFP4混合精度量化等前沿实践,探讨构建企业级统一模型服务平台。会议旨在推动大模型落地与性能优化,欢迎AI基础设施领域的从业者参与交流。社区持续分享AI Infra相关部署经验与案例
在大型语言模型部署过程中,开发者常面临硬件兼容性、环境配置和性能优化等挑战。Qwen3-235B模型用Atlas 800I A3或Atlas 800T A3均可部署,本文档以Atlas 800I A3为例,本文档基于实际项目经验,系统介绍了在Atlas 800I A3服务器上使用Sglang框架部署Qwen3-235B模型的完整流程,涵盖环境准备、权重量化、服务启动和性能测试等关键环节。
本次线下Meetup聚焦大模型部署关键挑战,重点探讨异构GPU管理与推理效率优化,分享构建统一模型服务平台的前沿实践。会议内容包括稀疏注意力系统设计、SGLang路线图及NVFP4混合精度量化等创新技术,旨在推动大模型落地与性能优化。活动由GPUStack、OpenBMB和SGLang社区联合举办,欢迎关注AI基础设施的从业者参与交流,共同促进AI Infra领域发展。
大语言模型基于Transformer架构和注意力机制,通过预训练和微调两个阶段进行训练。面临计算资源、偏见和缩放定律等挑战,需采用优化算法和分布式训练技术提高效率。LLM在自然语言处理、代码生成和创意内容等领域有广泛应用,是当前AI发展的核心技术。
vLLM 和 SGLang 对 Qwen3.6-27B 的完整部署测试教程与性能测试表现
sglang
——sglang
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net