
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
摘要:本文针对昇腾NPU算子开发中的性能瓶颈问题,重点分析了内存访问优化的关键策略。文章指出80%-90%的性能问题源于内存访问效率,并提出以下优化方法:1)确保连续访存避免带宽浪费;2)采用Block Swizzle技术提升L2缓存命中率;3)遵循128-bit内存对齐原则;4)合理管理UB空间和流水线调度。同时强调使用npu-smi和msprof等工具进行性能分析,通过Autotuner自动寻

摘要:本文针对昇腾NPU算子开发中的性能瓶颈问题,重点分析了内存访问优化的关键策略。文章指出80%-90%的性能问题源于内存访问效率,并提出以下优化方法:1)确保连续访存避免带宽浪费;2)采用Block Swizzle技术提升L2缓存命中率;3)遵循128-bit内存对齐原则;4)合理管理UB空间和流水线调度。同时强调使用npu-smi和msprof等工具进行性能分析,通过Autotuner自动寻

摘要:《Triton-Ascend算子开发基础与实战指南》介绍了基于昇腾NPU的高效算子开发方法。传统昇腾算子开发需手写ASCENDC/汇编,而Triton-Ascend结合Python编程便捷性与昇腾硬件特性(如AICore、UB缓存、Cube单元),提供更优的开发体验。文章详细解析了昇腾特化的SPMD模型、核心概念差异,并通过向量加法等实战案例,重点阐述了UB分配、Cube单元适配、内存调度等

摘要:《Triton-Ascend算子开发基础与实战指南》介绍了基于昇腾NPU的高效算子开发方法。传统昇腾算子开发需手写ASCENDC/汇编,而Triton-Ascend结合Python编程便捷性与昇腾硬件特性(如AICore、UB缓存、Cube单元),提供更优的开发体验。文章详细解析了昇腾特化的SPMD模型、核心概念差异,并通过向量加法等实战案例,重点阐述了UB分配、Cube单元适配、内存调度等

摘要:《Triton-Ascend算子开发基础与实战指南》介绍了基于昇腾NPU的高效算子开发方法。传统昇腾算子开发需手写ASCENDC/汇编,而Triton-Ascend结合Python编程便捷性与昇腾硬件特性(如AICore、UB缓存、Cube单元),提供更优的开发体验。文章详细解析了昇腾特化的SPMD模型、核心概念差异,并通过向量加法等实战案例,重点阐述了UB分配、Cube单元适配、内存调度等








