登录社区云,与社区用户共同成长
邀请您加入社区
演讲中回顾了其在龙蜥社区孵化并向上游贡献的 SGLang Tracing 可观测性建设历程,并结合具体案例探讨如何利用 AI Agent 实现 SGLang 框架的性能优化。
摘要: 开源框架Slime重塑大模型强化学习训练范式,以简洁的三模块架构(训练、推理、数据缓冲)实现生产级RL流水线,核心设计包括正确性优先、原生透传和开放数据接口。其工程化能力支撑智谱GLM-5.2仅用2天完成OPD后训练,性能提升显著,并兼容多款主流基座模型。围绕Slime已衍生12个生态项目,覆盖全模态RL、智能体优化等场景,形成技术生态位。开源后引发行业热议,智谱创始人唐杰与马斯克就中国模
本文对比了vLLM和SGLang两款高性能LLM推理框架在个人开发者场景下的表现。评测聚焦吞吐量和首Token延迟两大核心指标,分析了两者在技术架构上的差异:vLLM凭借PagedAttention和ContinuousBatching技术在高吞吐量和显存管理方面表现突出,适合批量处理任务;而SGLang的Pythonic API设计使其在首Token延迟和交互体验上更具优势,更适合实时应用场景。
大模型推理的三大瓶颈:内存、吞吐、延迟传统推理框架的局限性新一代推理框架的兴起吞吐量(Tokens/s)延迟(P50/P90/P99)内存使用效率成本效益分析各项指标冠军汇总框架优势领域性能短板分析。
SGLang(Structured Generation Language)是伯克利 LMSYS 团队推出的高性能大模型推理框架,最新稳定版 v0.5.6(2026),2026/06 推出新一代投机解码 DFlash 与 Spec V2,2026/04 实现 DeepSeek-V4 Day 0 支持,2026/02 在 NVIDIA GB300 NVL72 上达成 25x 推理性能。与 vLLM
vLLM与SGLang推理框架性能横评摘要 本文对比了两种主流LLM推理框架——vLLM(聚焦高吞吐)和SGLang(侧重低延迟)的核心特性和性能表现。测试在相同硬件(A100 GPU)和模型(LLaMA-2-7B)下进行,评估了吞吐量、延迟、内存效率和扩展性。 关键发现: 吞吐量:vLLM凭借PagedAttention技术,在长文本推理和大规模并发请求中表现更优;SGLang的动态批处理则在高
GPUStack 支持可插拔的推理引擎架构,允许自定义推理后端及其版本,用于引入 GPUStack 未内置的vLLMSGLangMindIE版本,或接入其他自定义推理引擎镜像。为了部署模型,这里以SGLang最新v0.5.12CUDA 版本官方镜像地址国内镜像地址cu130cu129对于其他 GPU,可前往查找 SGLang 官方打包的专用镜像。在推理后端菜单,编辑 SGLang,在版本配置中选择
同时,FlagGems 新增 6 大领域算子库——FlagDNN、FlagBlas、FlagSparse、FlagFFT、FlagTensor、FlagAudio,覆盖科学计算与信号处理场景,共计 102 个领域算子,从"大模型专用"走向全领域覆盖。厂商目录放置后由插件自动发现加载,vLLM-Plugin-FL、SGLang-Plugin-FL、Megatron-LM-FL、Transformer
测试先于选型:不要只看 Benchmark 跑分,一定要拿你们自己真实业务的 Prompt 分布去压测。短文本和长文本的配比,直接决定了最终的吞吐表现。监控指标抓重点:别光盯着 QPS,核心盯住GPU 显存占用率KV Cache 命中率P99 延迟。尤其是 P99,业务方对卡顿极其敏感。部署隔离:长短文本请求务必分开部署到不同的推理集群,千万不要把它们塞进同一个框架实例中,否则调度器会让你痛不欲生
RAG(检索增强生成)技术通过结合信息检索与大语言模型生成能力,有效解决了大模型的四大痛点:知识边界限制、信息更新滞后、幻觉问题及专业领域知识不足。其实现流程分为准备阶段(文档收集、处理、向量化)和使用阶段(相似性检索、提示词构建、结果生成)。LangChain框架提供了一套完整的RAG实现组件,涵盖文档加载、文本分割、向量存储到检索生成全流程,极大降低了开发门槛。该技术使大模型具备了实时获取和利
本文探讨了垂直领域Agent落地中的稳定性问题,指出大模型在复杂上下文中工具调用不稳定是主要障碍。作者提出用小模型(Qwen3-8B)进行后训练,通过SFT注入领域知识,DPO对齐工具调用偏好,使工具调用准确率从30%提升至97%-99%。该方法将工具调用契约固化进模型参数,提高了系统的可回归性和工程落地能力,为垂直Agent落地提供了新思路。
文章分享零基础获取算法实习的"从0到1"路径:重塑简历创造经历、夯实基础应对面试、用项目打造机会、调整心态把握机遇。同时提供AI大模型应用开发六大学习模块,强调找实习最大障碍是信息差与勇气,而非能力,鼓励读者把握AI时代机遇实现职业跃迁。
本文系统梳理了当前主流的大模型推理部署框架,包括vLLM、SGLang、TensorRT-LLM、Ollama、XInference等。vLLM基于PyTorch,采用PagedAttention和ContinuousBatching技术,适合高并发企业级应用;SGLang通过RadixAttention优化缓存复用,擅长多轮交互场景;TensorRT-LLM由NVIDIA深度优化,在GPU上性能
没有"最好",只有"最适合"
Transformers 的 Beam Search 实现集中在的 GenerationMixin 类中,核心方法是。与 vLLM 不同,Transformers 的 Beam Search 是纯张量操作的实现——所有 beam 的扩散、评分、剪枝都通过 PyTorch 张量运算完成,没有面向对象的序列管理,也没有 HTTP 层的编排开销。和 vLLM 老版本的实现一样,支持 early_stop
## 总结2026年四大主流 LLM 推理框架已各有明确的工程定位:vLLM 是生态最完整的全能选手,SGLang 在高并发和结构化生成上独树一帜,LMDeploy 是国产生态的最佳搭档,TensorRT-LLM 是吞吐量的性能天花板但部署成本最高。建议团队以 vLLM 作为默认起点,根据具体业务瓶颈(延迟/吞吐/量化/国产GPU)再针对性切换到专项优化的框架。与此同时,框架能力分化加剧:有的擅长
SGLang 与 vLLM 并非替代关系,而是同源互补的推理框架:vLLM 擅长通用高并发推理,是简单对话场景的高效选择;SGLang 聚焦复杂结构化任务,通过前端 DSL 与 RadixAttention 技术,实现“可编程性+高效性”的统一,是 Agent 等复杂 LLM 应用的最优解。
大模型推理引擎是支撑长思考链、多工具调用等高级能力的核心基础设施。Kimi K2.5代表新一代结构化推理范式,其本质是将问题拆解、工具调度与结果整合深度耦合的推理流程,而非传统token级续写。vLLM凭借PagedAttention显著提升显存利用率与吞吐量,特别适配32K长上下文场景;sglang则原生支持reasoning-parser与tool-call-parser,确保思维链与函数调用
初始化占位:创建一个与并行采样数n等长的chunks列表,作为每个并行序列结果的最终存放位置。异步消费数据流:通过async for循环,不断地从 SGLang 的数据管道中取出数据块(chunk按索引分发和覆盖:根据每个chunk中的index字段,将其存放到chunks列表的正确位置,并用最新的chunk覆盖掉之前收到的同一序列的旧chunk。保留最终状态:当循环结束时,chunks列表中的每
本文介绍了一个完全本地化的RAG系统构建方案,基于LangChain框架和A40 48G显卡资源实现。系统采用的技术栈包括Ubuntu 22.04、Conda环境管理、SGLang推理框架、Chroma向量数据库等。详细阐述了环境配置步骤(包括系统更新、Conda安装、Python环境创建)和核心组件安装(LangChain、SGLang、PyTorch等)。文章提供了文档处理模块和向量存储模块的
sglang Dense LLM PD分离部署
sglang KV cache管理
HiCache 是 SGLang 在 RadixAttention 基础上的分层 KV Cache 方案。它把 KV cache 组织成三层层级位置作用是否本地数据结构L1GPU 显存推理计算直接使用的 KV cache单实例/单 rank 私有L2CPU Host 内存,通常 pinned/registered扩大本地 cache 容量,作为 L1 与 L3 的中转层单实例/单 rank 私有L
SGLang源码安装与调试指南 本文记录了SGLang语言模型的源码安装过程和使用VSCode调试的方法。主要内容包括: 创建conda环境并安装依赖 从源码安装SGLang 配置VSCode调试环境 启动服务器时遇到的CUDA内存不足错误 安装过程中需要特别注意CUDA环境变量配置和内存分配问题。调试时建议参考官方文档和开发者访谈视频,了解项目背景和技术细节。文章提供了完整的安装命令和调试配置示
本文系统梳理了主流大模型推理部署框架,包括vLLM、SGLang、TensorRT-LLM、Ollama、XInference等。从核心技术、系统架构、性能指标及适用场景等多维度进行深度剖析,帮助读者了解各框架特点。vLLM适合高并发场景,SGLang擅长多轮交互,TensorRT-LLM优化NVIDIA GPU性能,Ollama便于本地部署,XInference支持分布式扩展,国产框架则适配特定
vLLM是“通用高效”的代表,平衡性能与易用;SGLang是“编程+执行一体化”的创新者,强调开发者体验与高级功能;TRT-LLM是“硬件深度优化”的工业标杆,牺牲灵活性换取极致性能。选择时应根据硬件环境、模型类型、开发资源与业务需求综合权衡。例如,在 H100 集群上部署 Qwen3-32B 对话服务,TRT-LLM 或 SGLang 更优;而在消费级 GPU 上快速验证 LLaMA3,则 vL
KV Cache与vLLM、SGLang推理框架
本文提出了一种结合vLLM和SGLang的LLM推理服务架构。vLLM通过PagedAttention等技术实现高性能推理,提供高吞吐低延迟;SGLang则提供结构化生成能力,支持约束解码和多轮对话管理。架构采用分层设计:SGLang运行时负责解析结构化请求、约束编译和负载均衡,vLLM引擎执行高效推理。支持单机或集群部署,通过缓存和并行技术优化性能。该架构兼具vLLM的高性能和SGLang的灵活
你通过 Anaconda 创建了一个干净的环境,在这个环境中启动 ComfyUI,然后利用 ComfyUI-GGUF 插件的专用加载节点,直接调用了你下载好的两个 GGUF 文件。这样,Qwen3.5 强大的多模态理解能力就被无缝集成到了 ComfyUI 的工作流中。
sglang
——sglang
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net