登录社区云,与社区用户共同成长
邀请您加入社区
清华镜像上的软件包版本号会随着安全更新而变化。
本文详细介绍了使用sglang在本地部署Qwen3.5模型的全过程,包括环境准备、启动命令解析、Claude Code配置及常见问题解决方案。重点阐述了sglang的高效推理能力,提供了详细的参数配置说明,并分享了通过LiteLLM实现OpenAI格式转换的技巧。文章还记录了Docker部署方案和A3B-GPTQ-Int4模型部署失败的经验教训,最终推荐了Qwen3.5-9B作为稳定可用的本地部署
摘要:GPUStack、OpenBMB和SGLang社区联合举办线下Meetup,聚焦大模型部署中的异构GPU管理与推理效率优化等核心挑战。活动将分享下一代稀疏注意力系统设计、SGLang最新路线图、NVFP4混合精度量化等前沿实践,探讨构建企业级统一模型服务平台。会议旨在推动大模型落地与性能优化,欢迎AI基础设施领域的从业者参与交流。社区持续分享AI Infra相关部署经验与案例
在大型语言模型部署过程中,开发者常面临硬件兼容性、环境配置和性能优化等挑战。Qwen3-235B模型用Atlas 800I A3或Atlas 800T A3均可部署,本文档以Atlas 800I A3为例,本文档基于实际项目经验,系统介绍了在Atlas 800I A3服务器上使用Sglang框架部署Qwen3-235B模型的完整流程,涵盖环境准备、权重量化、服务启动和性能测试等关键环节。
本次线下Meetup聚焦大模型部署关键挑战,重点探讨异构GPU管理与推理效率优化,分享构建统一模型服务平台的前沿实践。会议内容包括稀疏注意力系统设计、SGLang路线图及NVFP4混合精度量化等创新技术,旨在推动大模型落地与性能优化。活动由GPUStack、OpenBMB和SGLang社区联合举办,欢迎关注AI基础设施的从业者参与交流,共同促进AI Infra领域发展。
大语言模型基于Transformer架构和注意力机制,通过预训练和微调两个阶段进行训练。面临计算资源、偏见和缩放定律等挑战,需采用优化算法和分布式训练技术提高效率。LLM在自然语言处理、代码生成和创意内容等领域有广泛应用,是当前AI发展的核心技术。
vLLM 和 SGLang 对 Qwen3.6-27B 的完整部署测试教程与性能测试表现
Qwen 团队最新开源稠密多模态模型,在智能体编程任务上直接超过了前代。在 SWE-bench、Terminal-Bench 等一系列基准中,它以更小的参数规模,让“模型规模与能力线性增长”的经验不断被打破。从工程视角看,27B 稠密模型的规格既没有 MoE 架构的路由与调度复杂度,也没有超大模型那种多机分片带来的部署负担,但又足够强大,可以。这使得它天然适合作为一个“”,进入真实生产环境。本文将
大模型生成文本的方式是"逐字生成"——每生成一个字,都要"看一遍"之前所有的字。生成"今" → 看输入(1个字)生成"天" → 看输入 + "今"(2个字)生成"气" → 看输入 + "今天"(3个字)生成"真" → 看输入 + "今天天"(4个字)生成"好" → 看输入 + "今天天气"(5个字)每次都要重新计算之前所有字的"注意力权重",计算量巨大。把之前计算过的 Key 和 Value 缓存
至此,GPUStack 的控制面已成功部署,沐曦 GPU 节点也顺利接入集群,并能够正常采集 GPU 名称、索引、厂商信息、温度、利用率及显存使用等指标。在异构 GPU 环境下,GPUStack 可以将原本分散的推理服务进行统一纳管,使模型部署、服务运行以及监控观测都集中在同一平台中完成,从而降低多环境运维复杂度。在 GPUStack 控制台中,选择添加节点(Worker),并复制系统生成的接入命
文章对比了传统Workflow与Agent+Skills两种AI应用架构,提出Agent+Skills通过自然语言定义能力模块,实现逻辑灵活、可移植和自我进化。详细介绍了五步构建框架(拆分、编排、存储、分摊、迭代),解决了稳定性、成本和门槛三大挑战。将自动化资产从"死流程"转变为"可复用、可自我进化"的数字员工,适合复杂多变的应用场景。
本文详细介绍了如何利用字节跳动的AI编程工具Trae Solo构建多模态RAG系统的前端界面,并分享了"三步走"的Vibe Coding最佳实践:构建结构化提示词、提示词优化和精准问题定位。通过实际案例演示了使用Trae Solo快速开发前端应用的全过程,包括模块化架构设计、流式对话交互实现和PDF引用溯源功能等,为AI辅助编程提供了实用方法论。
其它高级参数(最大上下文、批量等)在 SGLang 的 flag 命名可能与 vLLM 不同。建议先用最小启动,性能参数逐步加(避免不认识的 flag 报错)。
GPUStack 支持接入官方及自定义推理镜像,以满足不同版本的 vLLM 和 SGLang 后端部署需求。以下示例展示如何在沐曦 GPU 上接入官方镜像并部署自定义版本模型。在 GPUStack 控制台中进入推理后端 → vLLM,编辑后端并添加新版本,使用沐曦官方 vLLM 镜像:参数示例版本0.15.0镜像框架MACA镜像入口命令执行命令⚠️ 注意:使用相应镜像前,需要先在沐曦开发者社区获取
文章系统介绍了多模态大模型(MLLM)的概念、架构设计、训练方法和评估技术。详细阐述了两种主流架构:统一的Embedding解码器架构和跨模态Attention架构,以及预训练、指令调优和对齐调优三阶段训练策略。同时探讨了多模态幻觉问题、扩展技术及未来发展方向,为NLP从业者提供了全面的多模态大模型入门指南。
本文介绍了开源视频生成模型万象的技术架构。该模型采用时空变分自编码器(VAE)结构,通过大规模预训练策略实现性能提升。文章重点解析了DiT模型的前向过程,包括输入处理、注意力机制和序列并行等关键模块。模型支持图生视频、指令编辑等任务,接受中文输入,1.3B版本仅需8.19GB显存。详细阐述了文本编码、图像编码、位置编码等输入处理流程,以及基于Triton的高效旋转位置编码实现。同时介绍了针对不同G
中,拆解了这一长期存在却少被系统讨论的工程问题,介绍了面向 LLM 的轻量级权重更新中间件 Checkpoint Engine,重点分享了基于共享内存(IPC)与 Zero-Copy 的秒级权重热更新机制,以及 Broadcast / P2P 传输模式在多节点场景下对冷启动和弹性扩缩容效率的显著优化,并结合 RL 训练实践,说明了如何有效缩短推理等待时间,为高频 RL 迭代提供了可复用的工程解法。
作者:昇腾实战派。
分享能实现模型权重秒级更新与快速加载的中间件,以加速强化学习等场景的迭代。同时,社区也展示了在支持 GLM、Mamba 等多样化模型,以及SGLang在昇腾的大模型推理优秀实践。随着模型尺寸的增加和MoE的模型,模型推理的重要性日益显现,GLM布道师将介绍 SGLang 与 GLM 模型的生态建设,重点介绍在 SGLang 上高效部署 GLM,包括基础的部署,PD分离,以及讲解在GLM模型适配中的
本文系统梳理了当前主流的大模型推理部署框架,包括vLLM、SGLang、TensorRT-LLM、Ollama、XInference等,从核心技术、架构设计、性能指标和适用场景等多个维度进行深入分析。文章详细介绍了各框架的创新点如vLLM的分页注意力和连续批处理、SGLang的RadixAttention、TensorRT-LLM的预编译优化等,并对比了它们的优缺点和适用场景,为大模型部署选型提供
SGLang(Structured Generation Language)是由斯坦福/LMSYS 团队发起的高性能大模型推理服务框架,通过协同设计后端运行时(SGVM)与前端语言,实现低延迟、高吞吐量的模型服务,同时强化结构化输出可控性,特别适合需要JSON/XML等格式输出的场景。性能优先(通用场景):选vLLM;性能+结构化输出:必选SGLang;低资源/本地化部署:选llama.cpp;需
参数配置方式性能 / 显存影响说明name自定义奖励函数的文件路径和名称调优建议:通过自定义奖励函数实现业务逻辑融合,如合规性、事实一致性、流畅性等,提升对齐质量。本指南系统梳理了 SGLang 与 VeRL 框架下大模型训练的核心配置项,涵盖批次控制、显存管理、生成策略、并行优化与算法调参等多个维度。通过合理配置,可在有限硬件资源下实现高效、稳定、可扩展的强化学习训练流程。建议开发者根据模型规模
SGLang是专为结构化生成和多轮对话优化的LLM推理引擎,具有三大核心优势:1)结构化生成能力,支持JSON/SQL/代码等格式约束输出;2)RadixAttention技术,通过KVCache树状复用提升多轮对话效率;3)Python-like编程模型,支持控制流和模块化设计。测试表明,在结构化生成场景下吞吐量可达150-180tokens/s,多轮对话显存效率提升2-3倍。SGLang特别适
欢迎大家报名参加,为大模型效能提升与自主算力平台落地提供创新思路。
vLLM解决了"如何在高并发下管好内存"SGLang解决了"如何在高复用下省掉计算"llama.cpp解决了"如何在普通硬件上跑得飞快"解决了"如何用有限显存跑大模型"理解这些引擎背后的资源调度逻辑,比单纯比拼 Benchmark 分数更能指导实际业务的落地。原型阶段:使用 Transformers 快速验证开发阶段:切换到 vLLM/SGLang 进行性能调优生产阶段:根据业务特征选择最优引擎并
SGLang是一个基于Python的分布式计算框架,通过多进程架构突破GIL限制。它支持三种并行计算模式:张量并行(TP)、流水线并行(PP)和数据并行(DP),以及针对特定模型的局部计算并行。文章详细介绍了TP模式的单机多卡部署方法,展示了服务启动日志和API调用示例,并简要说明了多机多卡集群的配置方式。SGLang能够有效利用多GPU资源,为大规模语言模型推理提供高效的分布式计算支持。
本文分享了在GitCode云端Notebook环境中对Qwen2-7B-Instruct模型进行性能调优的完整实践。通过ModelScope高效下载模型后,重点测试了不同批大小、KV缓存和量化设置下的推理性能,并提供了详细的调优步骤和实测数据。文章面向初次接触大模型优化的开发者,涵盖环境准备、模型加载、性能测试方法及优化建议,帮助读者快速掌握Qwen2-7B模型的性能调优技巧。
Qwen3-235B模型用Atlas 800I A3或Atlas 800T A3均可部署,本文档记录了在Atlas 800T A3硬件平台上,使用Sglang框架部署W8A8量化后的Qwen235B模型,并通过EAGLE3算法进行性能优化的完整流程。该方案旨在实现大语言模型的高效推理,涵盖了环境配置、权重量化、服务启动和性能测试等关键步骤。
Triton-Ascend 是适配华为 Ascend 昇腾芯片的 Triton 优化版本,提供高效的核函数自动调优、算子编译及部署能力。本文将详细介绍在昇腾环境中安装Triton-Ascend的完整流程,涵盖环境准备、依赖安装和验证测试等关键步骤。
继后,本次为大家带来SGLang框架下的昇腾部署实操指南,手把手教你完成 Qwen3.5系列开源模型的昇腾平台部署,轻松实现高效推理。本次教程适配Qwen3.5-397B-A17B、122B-A10B、35B-A3B、27B全系列模型,同时提供BF16原版权重与量化版本权重,满足不同开发需求。
veRL框架:面向强化学习的高效混合编排系统 veRL是一个专为强化学习(RL)设计的创新框架,通过独特的Hybrid Flow架构解决了传统RL框架在多阶段异构工作流中的编排难题。该框架采用单控制器(Single-controller)与多控制器(Multi-controller)相结合的混合模式,实现了全局工作流编排与组件内分布式计算的高效统一。 核心架构包含四大组件:Model Engine
本文提供华为昇腾NPU部署Qwen3.5+SGLang的实战指南,包含Docker Compose配置和启动脚本说明。环境要求为昇腾910B/8.5.0,通过挂载模型目录和映射NPU设备实现快速部署。关键配置包括CPU调优、Ascend环境设置、多卡并行参数等,并给出启动验证步骤。文章还提供性能调优建议和常见问题排查方法,适用于单机多卡场景,支持多模态能力,可根据业务需求调整参数。
接下来我们以 Qwen3.5-122B-A10B 为例,带大家一步步完成在 Ascend 上的 SGLang 部署流程,包括环境准备、启动方式和一些关键配置点。已同步上线 Qwen3.5 全尺寸模型版本,欢迎广大开发者前往 AtomGit AI 下载模型并体验部署流程,在真实算力环境中测试 Qwen3.5 的能力边界~如果您在使用过程中遇到任何问题(包括功能、合规等),欢迎在代码仓提交 Issue
摘要:本文基于昇腾Atlas800T NPU开发环境,对Qwen-14B大语言模型在SGLang框架下的适配与性能进行了系统验证。研究内容包括环境配置、兼容性测试、性能基准评估(FP16精度下平均吞吐20-25 tokens/s)以及RadixAttention缓存、投机推理等高级特性验证。测试结果表明,该模型在昇腾平台上可稳定运行,显存占用18-20GB,支持批量推理和长文本生成。研究还提出了包
Llama 3-8B-Instruct 在昇腾 NPU 上的 SGLang 性能实测
sglang
——sglang
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net