
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
《昇腾实战派:SGLang应用与优化全指南》摘要:本系列聚焦昇腾AI处理器与SGLang框架的深度整合,涵盖三大方向:(1)部署实践篇,详细解析sglang在NPU上的运行流程、大模型量化部署方案(如llama3.1-70B w8a8),以及Atlas服务器上Qwen3-235B的单机/分离部署实战;(2)框架优化篇,深入剖析SGLang的prefix cache特性,对比分析其技术原理与性能优势
本文基于Atlas 800I A2部署Qwen3-Omni全模态大模型,针对多模态AI分析系统的性能瓶颈展开优化。Qwen3-Omni支持文本、图像、音频、视频的统一处理,在多项基准测试中表现优异。通过分析发现MoE路由和CUMSUM算子存在性能瓶颈,采用Ascend原生算子替换和数据类型转换优化方案,显著提升推理效率。关键优化包括:替换MoE路由算子为Ascend原生实现,将CUMSUM算子的I
当前HSTU已在多个大型互联网平台部署,支持数十亿日活用户的推荐服务。其创新性不仅在于技术架构的改进,更在于为推荐系统领域带来了类似LLM的扩展定律,被业界视为推荐系统的"ChatGPT时刻"。
《昇腾实战派:SGLang应用与优化全指南》摘要:本系列聚焦昇腾AI处理器与SGLang框架的深度整合,涵盖三大方向:(1)部署实践篇,详细解析sglang在NPU上的运行流程、大模型量化部署方案(如llama3.1-70B w8a8),以及Atlas服务器上Qwen3-235B的单机/分离部署实战;(2)框架优化篇,深入剖析SGLang的prefix cache特性,对比分析其技术原理与性能优势
本文是"昇腾实战派"强化学习专题的知识地图,汇总了27篇关于veRL框架及昇腾AI平台的实践指南、算法解析和性能优化文章。内容涵盖veRL入门实践(如Qwen系列模型适配)、算法原理(如DAPO实现)、性能优化方案(异卡/异步训练)和问题定位技巧,同时包含其他RL框架(SiiRL/SAPO)的昇腾适配案例。其中《Qwen3-235B+verl+DAPO调优实践》被华为官方公众号精选推荐,为大规模模
《昇腾实战派知识地图》是一份全面的昇腾AI处理器技术指南,涵盖模型部署、训练优化、问题排查和环境配置四大核心领域。文档详细介绍了MindIE推理框架的部署实践(包括多模态模型和DeepSeek系列)、训练部署指南(如Qwen3-235B的DPO训练),以及PaddleOCR等模型的NPU部署方案。针对常见问题,提供了HCCL通信、内存泄漏、精度问题等系统化排查方法。环境配置部分包含apex库编译、
本文是"昇腾实战派"技术文章合集的知识地图,收录了29篇涵盖多领域的技术文章,分为5个专题:1) DeepSeek模型系列,包括V3版本的多Token预测、模型结构解析等核心内容;2) 并行策略与分布式技术,深入分析FSDP、序列并行、ZeRO-3等关键技术;3) 模型架构基础概念,涉及FLOPs计算、GE图模式等;4) 多模态技术,聚焦MoE模型和多模态理解;5) 其他模型分析,包含风乌V2、G
本文是"昇腾实战派"技术文章合集的知识地图,收录了29篇涵盖多领域的技术文章,分为5个专题:1) DeepSeek模型系列,包括V3版本的多Token预测、模型结构解析等核心内容;2) 并行策略与分布式技术,深入分析FSDP、序列并行、ZeRO-3等关键技术;3) 模型架构基础概念,涉及FLOPs计算、GE图模式等;4) 多模态技术,聚焦MoE模型和多模态理解;5) 其他模型分析,包含风乌V2、G
本文是"昇腾实战派"技术文章合集的知识地图,收录了29篇涵盖多领域的技术文章,分为5个专题:1) DeepSeek模型系列,包括V3版本的多Token预测、模型结构解析等核心内容;2) 并行策略与分布式技术,深入分析FSDP、序列并行、ZeRO-3等关键技术;3) 模型架构基础概念,涉及FLOPs计算、GE图模式等;4) 多模态技术,聚焦MoE模型和多模态理解;5) 其他模型分析,包含风乌V2、G
本文是"昇腾实战派"技术文章合集的知识地图,收录了29篇涵盖多领域的技术文章,分为5个专题:1) DeepSeek模型系列,包括V3版本的多Token预测、模型结构解析等核心内容;2) 并行策略与分布式技术,深入分析FSDP、序列并行、ZeRO-3等关键技术;3) 模型架构基础概念,涉及FLOPs计算、GE图模式等;4) 多模态技术,聚焦MoE模型和多模态理解;5) 其他模型分析,包含风乌V2、G







