徒步僧个人主页

@2401_85648342

徒步僧

2024-06-17 15:01:27 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Triton在昇腾NPU上的性能调优：内存优化指南

摘要：本文针对昇腾NPU算子开发中的性能瓶颈问题，重点分析了内存访问优化的关键策略。文章指出80%-90%的性能问题源于内存访问效率，并提出以下优化方法：1）确保连续访存避免带宽浪费；2）采用Block Swizzle技术提升L2缓存命中率；3）遵循128-bit内存对齐原则；4）合理管理UB空间和流水线调度。同时强调使用npu-smi和msprof等工具进行性能分析，通过Autotuner自动寻

#人工智能 #大数据

Triton在昇腾NPU上的性能调优：内存优化指南

#人工智能 #大数据

Triton-Ascend 算子开发基础与实战指南

摘要：《Triton-Ascend算子开发基础与实战指南》介绍了基于昇腾NPU的高效算子开发方法。传统昇腾算子开发需手写ASCENDC/汇编，而Triton-Ascend结合Python编程便捷性与昇腾硬件特性（如AICore、UB缓存、Cube单元），提供更优的开发体验。文章详细解析了昇腾特化的SPMD模型、核心概念差异，并通过向量加法等实战案例，重点阐述了UB分配、Cube单元适配、内存调度等

#java #spring #开发语言

Triton-Ascend 算子开发基础与实战指南

#java #spring #开发语言

Triton-Ascend 算子开发基础与实战指南

#java #spring #开发语言

到底了