登录社区云,与社区用户共同成长
邀请您加入社区
同时,FlagGems 新增 6 大领域算子库——FlagDNN、FlagBlas、FlagSparse、FlagFFT、FlagTensor、FlagAudio,覆盖科学计算与信号处理场景,共计 102 个领域算子,从"大模型专用"走向全领域覆盖。厂商目录放置后由插件自动发现加载,vLLM-Plugin-FL、SGLang-Plugin-FL、Megatron-LM-FL、Transformer
测试先于选型:不要只看 Benchmark 跑分,一定要拿你们自己真实业务的 Prompt 分布去压测。短文本和长文本的配比,直接决定了最终的吞吐表现。监控指标抓重点:别光盯着 QPS,核心盯住GPU 显存占用率KV Cache 命中率P99 延迟。尤其是 P99,业务方对卡顿极其敏感。部署隔离:长短文本请求务必分开部署到不同的推理集群,千万不要把它们塞进同一个框架实例中,否则调度器会让你痛不欲生
RAG(检索增强生成)技术通过结合信息检索与大语言模型生成能力,有效解决了大模型的四大痛点:知识边界限制、信息更新滞后、幻觉问题及专业领域知识不足。其实现流程分为准备阶段(文档收集、处理、向量化)和使用阶段(相似性检索、提示词构建、结果生成)。LangChain框架提供了一套完整的RAG实现组件,涵盖文档加载、文本分割、向量存储到检索生成全流程,极大降低了开发门槛。该技术使大模型具备了实时获取和利
本文探讨了垂直领域Agent落地中的稳定性问题,指出大模型在复杂上下文中工具调用不稳定是主要障碍。作者提出用小模型(Qwen3-8B)进行后训练,通过SFT注入领域知识,DPO对齐工具调用偏好,使工具调用准确率从30%提升至97%-99%。该方法将工具调用契约固化进模型参数,提高了系统的可回归性和工程落地能力,为垂直Agent落地提供了新思路。
文章分享零基础获取算法实习的"从0到1"路径:重塑简历创造经历、夯实基础应对面试、用项目打造机会、调整心态把握机遇。同时提供AI大模型应用开发六大学习模块,强调找实习最大障碍是信息差与勇气,而非能力,鼓励读者把握AI时代机遇实现职业跃迁。
本文系统梳理了当前主流的大模型推理部署框架,包括vLLM、SGLang、TensorRT-LLM、Ollama、XInference等。vLLM基于PyTorch,采用PagedAttention和ContinuousBatching技术,适合高并发企业级应用;SGLang通过RadixAttention优化缓存复用,擅长多轮交互场景;TensorRT-LLM由NVIDIA深度优化,在GPU上性能
没有"最好",只有"最适合"
Transformers 的 Beam Search 实现集中在的 GenerationMixin 类中,核心方法是。与 vLLM 不同,Transformers 的 Beam Search 是纯张量操作的实现——所有 beam 的扩散、评分、剪枝都通过 PyTorch 张量运算完成,没有面向对象的序列管理,也没有 HTTP 层的编排开销。和 vLLM 老版本的实现一样,支持 early_stop
## 总结2026年四大主流 LLM 推理框架已各有明确的工程定位:vLLM 是生态最完整的全能选手,SGLang 在高并发和结构化生成上独树一帜,LMDeploy 是国产生态的最佳搭档,TensorRT-LLM 是吞吐量的性能天花板但部署成本最高。建议团队以 vLLM 作为默认起点,根据具体业务瓶颈(延迟/吞吐/量化/国产GPU)再针对性切换到专项优化的框架。与此同时,框架能力分化加剧:有的擅长
SGLang 与 vLLM 并非替代关系,而是同源互补的推理框架:vLLM 擅长通用高并发推理,是简单对话场景的高效选择;SGLang 聚焦复杂结构化任务,通过前端 DSL 与 RadixAttention 技术,实现“可编程性+高效性”的统一,是 Agent 等复杂 LLM 应用的最优解。
大模型推理引擎是支撑长思考链、多工具调用等高级能力的核心基础设施。Kimi K2.5代表新一代结构化推理范式,其本质是将问题拆解、工具调度与结果整合深度耦合的推理流程,而非传统token级续写。vLLM凭借PagedAttention显著提升显存利用率与吞吐量,特别适配32K长上下文场景;sglang则原生支持reasoning-parser与tool-call-parser,确保思维链与函数调用
初始化占位:创建一个与并行采样数n等长的chunks列表,作为每个并行序列结果的最终存放位置。异步消费数据流:通过async for循环,不断地从 SGLang 的数据管道中取出数据块(chunk按索引分发和覆盖:根据每个chunk中的index字段,将其存放到chunks列表的正确位置,并用最新的chunk覆盖掉之前收到的同一序列的旧chunk。保留最终状态:当循环结束时,chunks列表中的每
本文介绍了一个完全本地化的RAG系统构建方案,基于LangChain框架和A40 48G显卡资源实现。系统采用的技术栈包括Ubuntu 22.04、Conda环境管理、SGLang推理框架、Chroma向量数据库等。详细阐述了环境配置步骤(包括系统更新、Conda安装、Python环境创建)和核心组件安装(LangChain、SGLang、PyTorch等)。文章提供了文档处理模块和向量存储模块的
sglang Dense LLM PD分离部署
sglang KV cache管理
HiCache 是 SGLang 在 RadixAttention 基础上的分层 KV Cache 方案。它把 KV cache 组织成三层层级位置作用是否本地数据结构L1GPU 显存推理计算直接使用的 KV cache单实例/单 rank 私有L2CPU Host 内存,通常 pinned/registered扩大本地 cache 容量,作为 L1 与 L3 的中转层单实例/单 rank 私有L
SGLang源码安装与调试指南 本文记录了SGLang语言模型的源码安装过程和使用VSCode调试的方法。主要内容包括: 创建conda环境并安装依赖 从源码安装SGLang 配置VSCode调试环境 启动服务器时遇到的CUDA内存不足错误 安装过程中需要特别注意CUDA环境变量配置和内存分配问题。调试时建议参考官方文档和开发者访谈视频,了解项目背景和技术细节。文章提供了完整的安装命令和调试配置示
2026年6月,智谱(Zhipu AI)将其内部生产环境长期使用的强化学习(RL)后训练框架 **slime** 正式开源(MIT 协议),并同步披露了 GLM-5.2 在该平台上的 OPD(Online Policy Distillation)后训练仅耗时约 2 天。slime 并非一个玩具级实验室框架,而是经过了 GLM-5.2/5.1/5/4.7/4.6/4.5 六个大版本迭代的工业级 RL
本文系统梳理了主流大模型推理部署框架,包括vLLM、SGLang、TensorRT-LLM、Ollama、XInference等。从核心技术、系统架构、性能指标及适用场景等多维度进行深度剖析,帮助读者了解各框架特点。vLLM适合高并发场景,SGLang擅长多轮交互,TensorRT-LLM优化NVIDIA GPU性能,Ollama便于本地部署,XInference支持分布式扩展,国产框架则适配特定
vLLM是“通用高效”的代表,平衡性能与易用;SGLang是“编程+执行一体化”的创新者,强调开发者体验与高级功能;TRT-LLM是“硬件深度优化”的工业标杆,牺牲灵活性换取极致性能。选择时应根据硬件环境、模型类型、开发资源与业务需求综合权衡。例如,在 H100 集群上部署 Qwen3-32B 对话服务,TRT-LLM 或 SGLang 更优;而在消费级 GPU 上快速验证 LLaMA3,则 vL
KV Cache与vLLM、SGLang推理框架
本文提出了一种结合vLLM和SGLang的LLM推理服务架构。vLLM通过PagedAttention等技术实现高性能推理,提供高吞吐低延迟;SGLang则提供结构化生成能力,支持约束解码和多轮对话管理。架构采用分层设计:SGLang运行时负责解析结构化请求、约束编译和负载均衡,vLLM引擎执行高效推理。支持单机或集群部署,通过缓存和并行技术优化性能。该架构兼具vLLM的高性能和SGLang的灵活
你通过 Anaconda 创建了一个干净的环境,在这个环境中启动 ComfyUI,然后利用 ComfyUI-GGUF 插件的专用加载节点,直接调用了你下载好的两个 GGUF 文件。这样,Qwen3.5 强大的多模态理解能力就被无缝集成到了 ComfyUI 的工作流中。
DFLASH推测解码原理
《昇腾实战派:SGLang应用与优化全指南》摘要:本系列聚焦昇腾AI处理器与SGLang框架的深度整合,涵盖三大方向:(1)部署实践篇,详细解析sglang在NPU上的运行流程、大模型量化部署方案(如llama3.1-70B w8a8),以及Atlas服务器上Qwen3-235B的单机/分离部署实战;(2)框架优化篇,深入剖析SGLang的prefix cache特性,对比分析其技术原理与性能优势
本文介绍了构建现代LLM推理引擎的核心数据结构Req与SamplingParams。Req对象封装了推理请求的完整状态,通过四个长度字段(cached_len/device_len/max_device_len/extend_len)统一管理prefill和decode阶段。关键设计包括:1)将host(CPU)和device(GPU)状态分离;2)用complete_one和append_hos
本篇内容完成了SGLang推理引擎最核心的模型架构搭建工作,我们用120余行核心Python代码,从零复刻了Qwen3-0.6B的完整网络结构,逐一拆解了嵌入层、归一化、QKV投影、QK-Norm、RoPE、GQA、因果注意力、门控MLP九大核心模块,彻底理清了Decoder-only大模型的底层运算逻辑。同时我们完成了国内权重高速下载、模型权重精准加载、真实对话生成的全流程实战,成功跑通模型前向
本文深入浅出地解析了大模型推理中的Prefill和Decode机制,通过代码示例和通俗类比揭示了四大核心问题:1)推理必须拆分为Prefill和Decode两种模式,这是Transformer自回归生成的本质特性;2)Prefill阶段只取最后一个token结果,因其是唯一需要预测的新内容;3)Decode必须拼接全文重算,因模型不会保留历史KV中间值;4)全程重算导致计算量随文本长度平方级增长,
无论你是正在搭建下一代智能体 AI 应用、优化大模型高吞吐推理服务,还是攻坚多模态音视频生成、强化学习训练落地,这场专属线下动手营,就是为你量身打造!本次 WorkShop 由 GOSIM 与 SGLang 核心团队联合出品,跳出泛泛的理论科普,直抵项目底层,深度拆解 SGLang 的核心架构、前沿能力与生产级落地全流程。当大模型推理性能成为落地核心瓶颈,当多模态生成、智能体工作流对底层框架提出更
如果你想本地部署大模型,通过计算框架,可参考本文“Linux环境安装SGLang框架运行自选大模型”,如果想了解ollama管理本地模型,可以看我的另一篇文章。
【代码】使用SGLang实现Qwen3.6-27B模型推理。
在国产 AI 加速卡日益普及的今天,许多开发者从 NVIDIA CUDA 生态迁移到华为昇腾(Ascend)平台时,往往会遇到“环境配不通、代码跑不起来”的困境。尤其是当我们需要同时兼顾底层算子开发、推理框架部署以及大模型微调时,工具链的碎片化和文档的缺失让整个过程显得尤为艰难。很多时候,我们并不是缺乏算法能力,而是被繁琐的环境依赖和晦涩的编译报错挡住了去路。其实,只要理清了从底层内核到上层应用的
sglang
——sglang
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net