登录社区云,与社区用户共同成长
邀请您加入社区
至此,GPUStack 的控制面已成功部署,沐曦 GPU 节点也顺利接入集群,并能够正常采集 GPU 名称、索引、厂商信息、温度、利用率及显存使用等指标。在异构 GPU 环境下,GPUStack 可以将原本分散的推理服务进行统一纳管,使模型部署、服务运行以及监控观测都集中在同一平台中完成,从而降低多环境运维复杂度。在 GPUStack 控制台中,选择添加节点(Worker),并复制系统生成的接入命
文章对比了传统Workflow与Agent+Skills两种AI应用架构,提出Agent+Skills通过自然语言定义能力模块,实现逻辑灵活、可移植和自我进化。详细介绍了五步构建框架(拆分、编排、存储、分摊、迭代),解决了稳定性、成本和门槛三大挑战。将自动化资产从"死流程"转变为"可复用、可自我进化"的数字员工,适合复杂多变的应用场景。
本文详细介绍了如何利用字节跳动的AI编程工具Trae Solo构建多模态RAG系统的前端界面,并分享了"三步走"的Vibe Coding最佳实践:构建结构化提示词、提示词优化和精准问题定位。通过实际案例演示了使用Trae Solo快速开发前端应用的全过程,包括模块化架构设计、流式对话交互实现和PDF引用溯源功能等,为AI辅助编程提供了实用方法论。
其它高级参数(最大上下文、批量等)在 SGLang 的 flag 命名可能与 vLLM 不同。建议先用最小启动,性能参数逐步加(避免不认识的 flag 报错)。
GPUStack 支持接入官方及自定义推理镜像,以满足不同版本的 vLLM 和 SGLang 后端部署需求。以下示例展示如何在沐曦 GPU 上接入官方镜像并部署自定义版本模型。在 GPUStack 控制台中进入推理后端 → vLLM,编辑后端并添加新版本,使用沐曦官方 vLLM 镜像:参数示例版本0.15.0镜像框架MACA镜像入口命令执行命令⚠️ 注意:使用相应镜像前,需要先在沐曦开发者社区获取
文章系统介绍了多模态大模型(MLLM)的概念、架构设计、训练方法和评估技术。详细阐述了两种主流架构:统一的Embedding解码器架构和跨模态Attention架构,以及预训练、指令调优和对齐调优三阶段训练策略。同时探讨了多模态幻觉问题、扩展技术及未来发展方向,为NLP从业者提供了全面的多模态大模型入门指南。
本文介绍了开源视频生成模型万象的技术架构。该模型采用时空变分自编码器(VAE)结构,通过大规模预训练策略实现性能提升。文章重点解析了DiT模型的前向过程,包括输入处理、注意力机制和序列并行等关键模块。模型支持图生视频、指令编辑等任务,接受中文输入,1.3B版本仅需8.19GB显存。详细阐述了文本编码、图像编码、位置编码等输入处理流程,以及基于Triton的高效旋转位置编码实现。同时介绍了针对不同G
中,拆解了这一长期存在却少被系统讨论的工程问题,介绍了面向 LLM 的轻量级权重更新中间件 Checkpoint Engine,重点分享了基于共享内存(IPC)与 Zero-Copy 的秒级权重热更新机制,以及 Broadcast / P2P 传输模式在多节点场景下对冷启动和弹性扩缩容效率的显著优化,并结合 RL 训练实践,说明了如何有效缩短推理等待时间,为高频 RL 迭代提供了可复用的工程解法。
作者:昇腾实战派。
分享能实现模型权重秒级更新与快速加载的中间件,以加速强化学习等场景的迭代。同时,社区也展示了在支持 GLM、Mamba 等多样化模型,以及SGLang在昇腾的大模型推理优秀实践。随着模型尺寸的增加和MoE的模型,模型推理的重要性日益显现,GLM布道师将介绍 SGLang 与 GLM 模型的生态建设,重点介绍在 SGLang 上高效部署 GLM,包括基础的部署,PD分离,以及讲解在GLM模型适配中的
本文系统梳理了当前主流的大模型推理部署框架,包括vLLM、SGLang、TensorRT-LLM、Ollama、XInference等,从核心技术、架构设计、性能指标和适用场景等多个维度进行深入分析。文章详细介绍了各框架的创新点如vLLM的分页注意力和连续批处理、SGLang的RadixAttention、TensorRT-LLM的预编译优化等,并对比了它们的优缺点和适用场景,为大模型部署选型提供
SGLang(Structured Generation Language)是由斯坦福/LMSYS 团队发起的高性能大模型推理服务框架,通过协同设计后端运行时(SGVM)与前端语言,实现低延迟、高吞吐量的模型服务,同时强化结构化输出可控性,特别适合需要JSON/XML等格式输出的场景。性能优先(通用场景):选vLLM;性能+结构化输出:必选SGLang;低资源/本地化部署:选llama.cpp;需
参数配置方式性能 / 显存影响说明name自定义奖励函数的文件路径和名称调优建议:通过自定义奖励函数实现业务逻辑融合,如合规性、事实一致性、流畅性等,提升对齐质量。本指南系统梳理了 SGLang 与 VeRL 框架下大模型训练的核心配置项,涵盖批次控制、显存管理、生成策略、并行优化与算法调参等多个维度。通过合理配置,可在有限硬件资源下实现高效、稳定、可扩展的强化学习训练流程。建议开发者根据模型规模
SGLang是专为结构化生成和多轮对话优化的LLM推理引擎,具有三大核心优势:1)结构化生成能力,支持JSON/SQL/代码等格式约束输出;2)RadixAttention技术,通过KVCache树状复用提升多轮对话效率;3)Python-like编程模型,支持控制流和模块化设计。测试表明,在结构化生成场景下吞吐量可达150-180tokens/s,多轮对话显存效率提升2-3倍。SGLang特别适
欢迎大家报名参加,为大模型效能提升与自主算力平台落地提供创新思路。
vLLM解决了"如何在高并发下管好内存"SGLang解决了"如何在高复用下省掉计算"llama.cpp解决了"如何在普通硬件上跑得飞快"解决了"如何用有限显存跑大模型"理解这些引擎背后的资源调度逻辑,比单纯比拼 Benchmark 分数更能指导实际业务的落地。原型阶段:使用 Transformers 快速验证开发阶段:切换到 vLLM/SGLang 进行性能调优生产阶段:根据业务特征选择最优引擎并
SGLang是一个基于Python的分布式计算框架,通过多进程架构突破GIL限制。它支持三种并行计算模式:张量并行(TP)、流水线并行(PP)和数据并行(DP),以及针对特定模型的局部计算并行。文章详细介绍了TP模式的单机多卡部署方法,展示了服务启动日志和API调用示例,并简要说明了多机多卡集群的配置方式。SGLang能够有效利用多GPU资源,为大规模语言模型推理提供高效的分布式计算支持。
本文分享了在GitCode云端Notebook环境中对Qwen2-7B-Instruct模型进行性能调优的完整实践。通过ModelScope高效下载模型后,重点测试了不同批大小、KV缓存和量化设置下的推理性能,并提供了详细的调优步骤和实测数据。文章面向初次接触大模型优化的开发者,涵盖环境准备、模型加载、性能测试方法及优化建议,帮助读者快速掌握Qwen2-7B模型的性能调优技巧。
Qwen3-235B模型用Atlas 800I A3或Atlas 800T A3均可部署,本文档记录了在Atlas 800T A3硬件平台上,使用Sglang框架部署W8A8量化后的Qwen235B模型,并通过EAGLE3算法进行性能优化的完整流程。该方案旨在实现大语言模型的高效推理,涵盖了环境配置、权重量化、服务启动和性能测试等关键步骤。
Triton-Ascend 是适配华为 Ascend 昇腾芯片的 Triton 优化版本,提供高效的核函数自动调优、算子编译及部署能力。本文将详细介绍在昇腾环境中安装Triton-Ascend的完整流程,涵盖环境准备、依赖安装和验证测试等关键步骤。
继后,本次为大家带来SGLang框架下的昇腾部署实操指南,手把手教你完成 Qwen3.5系列开源模型的昇腾平台部署,轻松实现高效推理。本次教程适配Qwen3.5-397B-A17B、122B-A10B、35B-A3B、27B全系列模型,同时提供BF16原版权重与量化版本权重,满足不同开发需求。
veRL框架:面向强化学习的高效混合编排系统 veRL是一个专为强化学习(RL)设计的创新框架,通过独特的Hybrid Flow架构解决了传统RL框架在多阶段异构工作流中的编排难题。该框架采用单控制器(Single-controller)与多控制器(Multi-controller)相结合的混合模式,实现了全局工作流编排与组件内分布式计算的高效统一。 核心架构包含四大组件:Model Engine
本文提供华为昇腾NPU部署Qwen3.5+SGLang的实战指南,包含Docker Compose配置和启动脚本说明。环境要求为昇腾910B/8.5.0,通过挂载模型目录和映射NPU设备实现快速部署。关键配置包括CPU调优、Ascend环境设置、多卡并行参数等,并给出启动验证步骤。文章还提供性能调优建议和常见问题排查方法,适用于单机多卡场景,支持多模态能力,可根据业务需求调整参数。
接下来我们以 Qwen3.5-122B-A10B 为例,带大家一步步完成在 Ascend 上的 SGLang 部署流程,包括环境准备、启动方式和一些关键配置点。已同步上线 Qwen3.5 全尺寸模型版本,欢迎广大开发者前往 AtomGit AI 下载模型并体验部署流程,在真实算力环境中测试 Qwen3.5 的能力边界~如果您在使用过程中遇到任何问题(包括功能、合规等),欢迎在代码仓提交 Issue
摘要:本文基于昇腾Atlas800T NPU开发环境,对Qwen-14B大语言模型在SGLang框架下的适配与性能进行了系统验证。研究内容包括环境配置、兼容性测试、性能基准评估(FP16精度下平均吞吐20-25 tokens/s)以及RadixAttention缓存、投机推理等高级特性验证。测试结果表明,该模型在昇腾平台上可稳定运行,显存占用18-20GB,支持批量推理和长文本生成。研究还提出了包
Llama 3-8B-Instruct 在昇腾 NPU 上的 SGLang 性能实测
本文系统梳理了大型语言模型(LLM)的核心知识体系,涵盖十大关键领域:1)Transformer架构原理及组件详解;2)主流大模型发展脉络;3)预训练数据处理方法;4)微调优化技术(SFT/RLHF等);5)模型压缩量化策略;6)专家混合模型(MoE);7)RAG与智能体技术;8)部署与加速方案;9)评估指标体系;10)创新架构探索。特别强调Transformer自注意力机制、位置编码、解码策略等
文章系统介绍检索增强生成(RAG)技术,作为解决大模型幻觉、知识盲点等局限性的有效方案。详细阐述RAG四种基础范式(基于查询、潜在表示、Logit和推测性RAG)及五组增强方法,完整描述从用户提问到答案生成的RAG工作流程,提供主流向量数据库和框架参考,是一份实用的RAG技术学习资源。
当前,昇腾已作为SGLang原生支持的后端之一进入主仓库,随着 SGLang推理引擎的更新,DeepSeek、Qwen、GLM等模型可以在不调整模型参数、不引入额外插件的情况下直接运行,HiCache、Mooncake等系统能力也在对应版本中引入。可以说,这次SGLang AI金融π对呈现的,并非零散技术点,而是一条清晰的推理工程演进路径——从缓存与内存体系,到权重更新、强化学习效率,再到算力与模
CodeLlama-7b-Python 在昇腾 Atlas 800T上的性能测试报告测试环境:GitCode Notebook (Atlas 800T NPU)关键指标:- 单请求平均吞吐量:15.90 tokens/秒- 极限并发吞吐量 (Batch=64):646.40 tokens/秒- 平均延迟稳定性:±0.08秒- 模型加载时间:15.20秒场景性能对比图单流低延迟 (Batch=1)
经过系统性测试,VLM在Atlas 800T平台上展现:●极致的批量吞吐能力:系统轻松支持Batch 64的超大批次并行,吞吐量稳定在84.43 图像/秒,相比单批次提升近 3 倍,完美释放了 NPU 的Cube Core算力。●高分辨率处理得心应手:在 512x512 高分辨率场景下,像素处理效率(PPS)达到 1270万 像素/秒,展现了 NPU 在高负载任务下的卓越并行计算优势。●生态无缝兼
文章介绍了Model Context Protocol (MCP)技术,它是一个标准化协议,帮助AI模型突破能力边界,解决时效性、能力边界和数据访问限制等问题。文章详细讲解了MCP的架构设计、Spring AI生态系统中的MCP服务器开发、客户端实现、传输协议选择和工具执行流程,并通过实际示例展示了如何将MCP集成到AI应用中,使AI能够调用外部工具和服务,大大扩展了AI系统的能力边界。
本文所提供的代码实例与实践经验仅供开发者参考,由于软硬件环境与配置存在差异,无法保证在其他条件下能复现完全一致的结果。本次测评基于GitCode Notebook提供的昇腾开发环境,聚焦SGLang在昇腾平台上的兼容性验证、性能表现分析以及优化潜力探索。SGLang作为一种新兴的结构化生成框架,通过引入RadixAttention、投机推理等创新技术,为复杂生成任务提供了全新的解决方案。与传统的逐
sglang
——sglang
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net