
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
【昇腾910B大模型部署优化实战】针对DeepSeek-V3和Qwen2.5-72B在昇腾910B集群的部署,发现初始吞吐仅为GPU的60%。通过系统优化实现276%性能提升,关键发现:1)CANN与CUDA优化逻辑差异大,需重构Attention计算和显存管理;2)FlashAttention+PagedAttention+W8A16量化组合使DeepSeek-V3吞吐从580TPS提升至218

昇腾910B大模型部署优化实践 在昇腾910B集群部署DeepSeek-V3和Qwen2.5-72B时,发现默认配置下吞吐仅为GPU的60%。通过系统优化实现276%性能提升,关键经验包括: 性能分析先行:使用CANN的msprof工具定位瓶颈,发现昇腾与GPU的瓶颈差异(计算vs访存) Attention优化:采用FlashAttention实现145-162%提升,针对不同序列长度动态选择压缩

本文分享了将PyTorch训练的ResNet-50模型部署到昇腾910B芯片的完整流程和实战经验。主要内容包括: 模型转换四步流程:PyTorch→ONNX→OM模型→部署,重点解决算子支持性、动态shape处理、量化精度验证等关键问题。 详细操作指南: PyTorch导出ONNX时的常见问题及解决方法 使用atc工具将ONNX转换为昇腾专用OM格式 模型量化(FP16→INT8)及精度验证方法

本文分享了将PyTorch训练的ResNet-50模型部署到昇腾910B芯片的完整流程和实战经验。主要内容包括: 模型转换四步流程:PyTorch→ONNX→OM模型→部署,重点解决算子支持性、动态shape处理、量化精度验证等关键问题。 详细操作指南: PyTorch导出ONNX时的常见问题及解决方法 使用atc工具将ONNX转换为昇腾专用OM格式 模型量化(FP16→INT8)及精度验证方法

本文分享了将PyTorch训练的ResNet-50模型部署到昇腾910B芯片的完整流程和实战经验。主要内容包括: 模型转换四步流程:PyTorch→ONNX→OM模型→部署,重点解决算子支持性、动态shape处理、量化精度验证等关键问题。 详细操作指南: PyTorch导出ONNX时的常见问题及解决方法 使用atc工具将ONNX转换为昇腾专用OM格式 模型量化(FP16→INT8)及精度验证方法

本文介绍了如何使用CANN内置工具msprof进行NPU性能优化。通过分析Qwen2.5-7B模型推理案例,发现Attention、LayerNorm和MoE Router是主要性能瓶颈(共占78%耗时)。msprof能采集全栈数据,包括算子耗时、硬件利用率、HBM读写和ACL调用等指标,精准定位问题。优化后吞吐量从34 tokens/s提升至89 tokens/s(+162%)。文章详细说明了m

昇腾算子开发需掌握达芬奇架构(Cube/Vector/Scalar单元)、Tiling策略(L0A/L0B/L0C容量约束)、缓存管理(L1/UB分配)和流水线编排(双缓冲)。开发流程包括创建项目、编写Kernel、编译和测试。性能调优关键在于Tiling优化(充分利用L0缓存)、缓存管理和流水线编排。建议参考cann-samples示例代码,可大幅缩短开发周期(从2-3周缩短至2-3天)。

昇腾算子开发需掌握达芬奇架构(Cube/Vector/Scalar单元)、Tiling策略(L0A/L0B/L0C容量约束)、缓存管理(L1/UB分配)和流水线编排(双缓冲)。开发流程包括创建项目、编写Kernel、编译和测试。性能调优关键在于Tiling优化(充分利用L0缓存)、缓存管理和流水线编排。建议参考cann-samples示例代码,可大幅缩短开发周期(从2-3周缩短至2-3天)。

摘要:昇腾推理引擎MindIE相比vLLM在Qwen2.5-72B模型上实现161%的吞吐提升(47 tokens/s)。其核心技术包括:1)自动算子融合降低92%调度开销;2)PagedAttention显存管理提升利用率至80%;3)Continuous Batching使NPU利用率达92%;4)量化推理(W8A16)在精度损失<1%下提升45%吞吐。MindIE作为完整推理引擎,针对昇腾硬

摘要:昇腾推理引擎MindIE相比vLLM在Qwen2.5-72B模型上实现161%的吞吐提升(47 tokens/s)。其核心技术包括:1)自动算子融合降低92%调度开销;2)PagedAttention显存管理提升利用率至80%;3)Continuous Batching使NPU利用率达92%;4)量化推理(W8A16)在精度损失<1%下提升45%吞吐。MindIE作为完整推理引擎,针对昇腾硬








