
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文深入剖析了在昇腾NPU上使用Triton开发高性能算子时面临的核心挑战——片上内存约束问题。作者基于多年实战经验,系统性地提出了突破UB缓存限制的优化方法论,包括智能分块、核内再分块、数据复用等关键技术。通过完整的LayerNorm算子优化示例和性能数据分析,展示了如何将理论优化策略转化为实际性能提升(3.3倍加速)。文章还分享了推荐系统和科学计算领域的真实优化案例,并提供了故障排查指南和未来

摘要:昇腾NPU算子开发中,Tiling设计是资源分配的"政治经济学",需要在并行度、计算密度和资源开销三者间找到平衡。本文通过真实案例,从Block切分、AICore映射到硬件单元调度三个层面,剖析如何设计自适应Tiling策略。特别针对非对称卷积,展示了从±50%性能波动优化到±5%以内的实战经验,包括动态Tile决策器设计、条件核函数实现和尾块优化技巧。文章还总结了Cac

本文深度解析华为昇腾AI全栈技术体系,聚焦CANN异构计算架构,涵盖达芬奇芯片微架构、AscendC编程模型、算子优化等核心技术。通过三维计算单元设计、软硬协同优化,将昇腾910B的理论算力转化为实际业务价值,实现80%硬件利用率。文章包含ResNet-50优化实例、MoE模型部署实战等企业级案例,提供从单卡开发到集群部署的完整技术路径。核心创新包括三级流水线、动态Shape支持等关键技术,显著提

本文系统探讨了AscendC Tiling技术的核心原理与优化策略。Tiling通过数据分块、多核并行和内存层次优化三大机制,有效解决AI处理器内存容量与大规模张量计算的矛盾。文章从硬件架构出发,详细解析了Tiling的数学模型、算法实现和性能特性,并通过动态Shape算子案例展示了从40%到85%的算力提升方法。重点介绍了多粒度优化框架和自适应分块策略,为高性能算子开发提供完整解决方案。文章还涵

本文系统介绍了昇腾AI处理器上MlaProlog算子的技术架构与开发实践。从硬件特性分析入手,详细阐述了基于达芬奇架构的融合算子设计原理,通过计算图优化实现3-5倍性能提升。重点讲解了从Python DSL到AscendC代码的自动编译路径,结合TVM/MLIR技术栈和多面体模型优化方法。文章还分享了企业级应用案例、性能调优技巧和故障排查指南,并展望了AI编译技术向智能生成和异构统一的发展趋势。为

本文系统解析基于AscendC的开源Cube算子开发全流程,聚焦CANN异构计算架构下的三大核心技术:达芬奇3DCube单元、AscendC向量化编程与多级流水线调度。通过源码逆向工程可缩短70%学习周期,模块化拆解能深入理解复杂算子逻辑,性能热点分析可定位90%优化瓶颈。关键技术包括三级代码阅读法、CPU/NPU孪生调试和模板化开发(降低60%工作量)。提供MatMul算子拆解实例、自定义开发指

本文深入解析AscendC中DoubleBuffer技术的原理与实践,探讨如何通过双缓冲优化解决AI计算中的内存墙问题。文章系统介绍了昇腾AI处理器的多级存储架构和流水线并行机制,详细阐述了DoubleBuffer的实现方法及其40%-60%的性能提升效果。通过Element-Wise加法算子的完整案例,展示了从开发环境配置到性能分析工具链的全流程实践,并提供了企业级应用的优化策略和故障排查指南。

本文深入解析AsNumpy与CANN运行时的协同优化机制,通过四层运行时架构实现Python到NPU的高效映射。关键技术包括:计算图优化(算子融合、内存复用)、统一内存管理(零拷贝、内存池)和异步执行引擎(多流并发、DAG调度)。性能测试显示,优化版本相比NumPy实现111.5倍加速。最佳实践建议采用统一内存、异步执行和批量操作。该技术代表了声明式编程在异构计算中的优势,使开发者能专注算法而由运

本文深度解析MoeGatingTopK在Ascend C开发中的常见问题与调优策略。针对内存对齐、数据竞争、性能瓶颈等关键技术难题,提供完整的诊断方法和解决方案。文章涵盖从代码级调试到系统级调优的全链路技术,包含5大典型场景、12个实战案例,以及可复现的性能优化方案。基于ops-transformer仓的实际开发经验,展示如何在企业级项目中实现3-8倍性能提升和99.9%+的正确性保障。本文系统性

本文系统介绍了在TensorFlow中集成AscendC自定义算子的技术方案,实现端到端性能提升。主要内容包括:1)架构设计与内存管理策略,通过统一内存分配降低15-20%访问延迟;2)核心集成技术,涵盖算子注册、梯度计算等关键环节,使训练速度提升25-40%;3)矩阵乘法优化案例,通过分块计算、双缓冲等技术实现3-5倍加速;4)企业级实践,包括大模型训练优化、动态形状支持和混合精度集成;5)性能








