
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
各位搞AI训练的兄弟们,今天咱们掏心窝子聊聊EmbeddingDenseGrad这个算子。我干了多年AI芯片算子开发,在昇腾Atlas 300I/V Pro上踩过的坑比你们走过的路都多。这玩意儿看着简单,就是给Embedding层算梯度嘛,但真要搞出工业级可用的实现,能让模型稳定收敛还不拖慢训练速度,里面的门道深着呢。今天我就用大白话,结合InternVL3等大模型实战经验,告诉你哪些错不能犯,怎

本文深入解析AscendC算子开发中的内存管理技术,系统剖析内存泄漏与使用过高的诊断方案。通过介绍msSanitizer检测工具、NPU上板调试等实战方法,结合UBBuffer融合、内存复用等高级优化技巧,提供从问题定位到性能调优的完整解决方案。文章包含代码示例、流程图和性能数据对比,帮助开发者掌握AscendC内存管理精髓,构建高效稳定AI算子。主要内容包括:内存架构解析、泄漏诊断与修复、性能优

本文系统阐述了AscendC算子开发中Tiling策略的调试与优化方法论。基于昇腾AI处理器架构特性,详细解析了Tiling参数调优、性能分析工具使用、瓶颈定位技巧等关键技术,并通过矩阵乘法和推荐系统等实战案例,展示了从算子级优化到硬件级性能极限的全流程。文章构建了包含理论分析、工具集成、自动化调优框架的完整性能优化体系,为开发者提供了从功能实现到性能极致的系统化解决方案。

本文基于AscendC开发经验,系统讲解自定义融合算子的实现全流程。以LayerNorm+GEMM为例,详细解析算子设计原理、AscendC内核实现、Tiling策略优化及PyTorch集成方法。通过实测数据展示融合算子3-5倍的性能提升,并分享企业级部署中的优化技巧与故障排查经验。文章包含完整的代码示例和架构图解,为开发者提供从理论到实践的AI芯片算力调优指南,助力突破大模型时代的内存墙瓶颈。

在昇腾NPU的达芬奇架构中,Ascend C 通过革命性的“3D Task”内核执行模型,将传统GPU的二维线程网格升维至三维并行世界。本文首次系统揭示Block、Cluster、Cube Unit之间的硬件映射关系,并基于13年异构计算实战经验,深入剖析LLM推理中KV Cache增量解码稀疏矩阵乘混合精度计算多核负载均衡四大前沿优化技术。通过实测数据对比与完整代码示例,展示如何将理论峰值性能

在昇腾NPU的达芬奇架构中,Ascend C 通过革命性的“3D Task”内核执行模型,将传统GPU的二维线程网格升维至三维并行世界。本文首次系统揭示Block、Cluster、Cube Unit之间的硬件映射关系,并基于13年异构计算实战经验,深入剖析LLM推理中KV Cache增量解码稀疏矩阵乘混合精度计算多核负载均衡四大前沿优化技术。通过实测数据对比与完整代码示例,展示如何将理论峰值性能

在昇腾NPU的达芬奇架构中,Ascend C 通过革命性的“3D Task”内核执行模型,将传统GPU的二维线程网格升维至三维并行世界。本文首次系统揭示Block、Cluster、Cube Unit之间的硬件映射关系,并基于13年异构计算实战经验,深入剖析LLM推理中KV Cache增量解码稀疏矩阵乘混合精度计算多核负载均衡四大前沿优化技术。通过实测数据对比与完整代码示例,展示如何将理论峰值性能

本文深入解析华为昇腾CANN软件栈的设计哲学与技术实现,从计算架构演进视角剖析其全栈协同机制。文章系统解构了ops-nn、ops-cv、ops-transformer三大核心算子库的差异化定位与协同优化策略,通过架构演进图、性能数据和实战代码展示CANN如何重构AI计算基础设施。作者基于13年高性能计算经验,揭示了CANN在编译时-运行时联合优化、硬件-软件信息透明化等维度的创新,并提供了7个关键

本文深入解析华为昇腾CANN软件栈的设计哲学与技术实现,从计算架构演进视角剖析其全栈协同机制。文章系统解构了ops-nn、ops-cv、ops-transformer三大核心算子库的差异化定位与协同优化策略,通过架构演进图、性能数据和实战代码展示CANN如何重构AI计算基础设施。作者基于13年高性能计算经验,揭示了CANN在编译时-运行时联合优化、硬件-软件信息透明化等维度的创新,并提供了7个关键

本文深入解析华为昇腾CANN软件栈的设计哲学与技术实现,从计算架构演进视角剖析其全栈协同机制。文章系统解构了ops-nn、ops-cv、ops-transformer三大核心算子库的差异化定位与协同优化策略,通过架构演进图、性能数据和实战代码展示CANN如何重构AI计算基础设施。作者基于13年高性能计算经验,揭示了CANN在编译时-运行时联合优化、硬件-软件信息透明化等维度的创新,并提供了7个关键








