logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

DeepSeek / Qwen 大模型在昇腾上的推理优化实战

【昇腾910B大模型部署优化实战】针对DeepSeek-V3和Qwen2.5-72B在昇腾910B集群的部署,发现初始吞吐仅为GPU的60%。通过系统优化实现276%性能提升,关键发现:1)CANN与CUDA优化逻辑差异大,需重构Attention计算和显存管理;2)FlashAttention+PagedAttention+W8A16量化组合使DeepSeek-V3吞吐从580TPS提升至218

文章图片
#harmonyos
DeepSeek / Qwen 大模型在昇腾上的推理优化实战

昇腾910B大模型部署优化实践 在昇腾910B集群部署DeepSeek-V3和Qwen2.5-72B时,发现默认配置下吞吐仅为GPU的60%。通过系统优化实现276%性能提升,关键经验包括: 性能分析先行:使用CANN的msprof工具定位瓶颈,发现昇腾与GPU的瓶颈差异(计算vs访存) Attention优化:采用FlashAttention实现145-162%提升,针对不同序列长度动态选择压缩

文章图片
#算法
如何轻松实现CANN 模型转换与部署实战

本文分享了将PyTorch训练的ResNet-50模型部署到昇腾910B芯片的完整流程和实战经验。主要内容包括: 模型转换四步流程:PyTorch→ONNX→OM模型→部署,重点解决算子支持性、动态shape处理、量化精度验证等关键问题。 详细操作指南: PyTorch导出ONNX时的常见问题及解决方法 使用atc工具将ONNX转换为昇腾专用OM格式 模型量化(FP16→INT8)及精度验证方法

文章图片
#neo4j#深度学习#算法
如何轻松实现CANN 模型转换与部署实战

本文分享了将PyTorch训练的ResNet-50模型部署到昇腾910B芯片的完整流程和实战经验。主要内容包括: 模型转换四步流程:PyTorch→ONNX→OM模型→部署,重点解决算子支持性、动态shape处理、量化精度验证等关键问题。 详细操作指南: PyTorch导出ONNX时的常见问题及解决方法 使用atc工具将ONNX转换为昇腾专用OM格式 模型量化(FP16→INT8)及精度验证方法

文章图片
#neo4j#深度学习#算法
如何轻松实现CANN 模型转换与部署实战

本文分享了将PyTorch训练的ResNet-50模型部署到昇腾910B芯片的完整流程和实战经验。主要内容包括: 模型转换四步流程:PyTorch→ONNX→OM模型→部署,重点解决算子支持性、动态shape处理、量化精度验证等关键问题。 详细操作指南: PyTorch导出ONNX时的常见问题及解决方法 使用atc工具将ONNX转换为昇腾专用OM格式 模型量化(FP16→INT8)及精度验证方法

文章图片
#neo4j#深度学习#算法
msprof 性能分析工具实战 一看就会!

本文介绍了如何使用CANN内置工具msprof进行NPU性能优化。通过分析Qwen2.5-7B模型推理案例,发现Attention、LayerNorm和MoE Router是主要性能瓶颈(共占78%耗时)。msprof能采集全栈数据,包括算子耗时、硬件利用率、HBM读写和ACL调用等指标,精准定位问题。优化后吞吐量从34 tokens/s提升至89 tokens/s(+162%)。文章详细说明了m

文章图片
#架构#深度学习#算法
10分钟上手昇腾 NPU 算子开发入门与实战

昇腾算子开发需掌握达芬奇架构(Cube/Vector/Scalar单元)、Tiling策略(L0A/L0B/L0C容量约束)、缓存管理(L1/UB分配)和流水线编排(双缓冲)。开发流程包括创建项目、编写Kernel、编译和测试。性能调优关键在于Tiling优化(充分利用L0缓存)、缓存管理和流水线编排。建议参考cann-samples示例代码,可大幅缩短开发周期(从2-3周缩短至2-3天)。

文章图片
#java#spring#jvm
10分钟上手昇腾 NPU 算子开发入门与实战

昇腾算子开发需掌握达芬奇架构(Cube/Vector/Scalar单元)、Tiling策略(L0A/L0B/L0C容量约束)、缓存管理(L1/UB分配)和流水线编排(双缓冲)。开发流程包括创建项目、编写Kernel、编译和测试。性能调优关键在于Tiling优化(充分利用L0缓存)、缓存管理和流水线编排。建议参考cann-samples示例代码,可大幅缩短开发周期(从2-3周缩短至2-3天)。

文章图片
#java#spring#jvm
MindIE 推理引擎架构解析

摘要:昇腾推理引擎MindIE相比vLLM在Qwen2.5-72B模型上实现161%的吞吐提升(47 tokens/s)。其核心技术包括:1)自动算子融合降低92%调度开销;2)PagedAttention显存管理提升利用率至80%;3)Continuous Batching使NPU利用率达92%;4)量化推理(W8A16)在精度损失<1%下提升45%吞吐。MindIE作为完整推理引擎,针对昇腾硬

文章图片
#架构#算法#深度学习
MindIE 推理引擎架构解析

摘要:昇腾推理引擎MindIE相比vLLM在Qwen2.5-72B模型上实现161%的吞吐提升(47 tokens/s)。其核心技术包括:1)自动算子融合降低92%调度开销;2)PagedAttention显存管理提升利用率至80%;3)Continuous Batching使NPU利用率达92%;4)量化推理(W8A16)在精度损失<1%下提升45%吞吐。MindIE作为完整推理引擎,针对昇腾硬

文章图片
#架构#算法#深度学习
    共 109 条
  • 1
  • 2
  • 3
  • 11
  • 请选择