R1nG863 个人主页

@weixin_75201252

R1nG863

2023-02-27 10:30:40 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Triton-Ascend自动调优实战 - 动态参数选择与性能瓶颈破解

📌摘要：本文深入解析Triton-Ascend自动调优技术，从核心原理到企业级实践。通过动态参数选择、性能瓶颈识别等关键技术，实现算子性能提升2-3倍、调优时间减少80%的效果。文章包含配置空间生成算法、多目标优化策略等实战内容，并分享真实案例数据：在推荐系统中实现延迟降低62.7%、吞吐量提升2.58倍的优化效果。最后展望AI驱动调优等未来趋势，为开发者提供从入门到精通的完整技术路线。（149

#CANN #昇腾 #架构

Ascend C算子开发入门：EmbeddingDenseGrad算子的正确实现与错误规避

各位搞AI训练的兄弟们，今天咱们掏心窝子聊聊EmbeddingDenseGrad这个算子。我干了多年AI芯片算子开发，在昇腾Atlas 300I/V Pro上踩过的坑比你们走过的路都多。这玩意儿看着简单，就是给Embedding层算梯度嘛，但真要搞出工业级可用的实现，能让模型稳定收敛还不拖慢训练速度，里面的门道深着呢。今天我就用大白话，结合InternVL3等大模型实战经验，告诉你哪些错不能犯，怎

#昇腾 #CANN

Ascend C内存体系深度剖析 - 从Global Memory到Unified Buffer的高效数据搬运

本文深入剖析昇腾NPU内存架构优化技术，聚焦达芬奇架构四级存储体系（Global Memory→Unified Buffer→L0/L1→寄存器）的数据搬运优化。通过矩阵乘法算子案例，详解数据对齐、双缓冲、流水线并行等关键技术，实现89%计算单元利用率。包含企业级优化经验（推荐系统特征处理实现3.2倍吞吐提升）和故障排查指南（内存碎片/带宽瓶颈解决方案），并展望计算存储一体化、智能预取等未来趋势。

#昇腾 #CANN #架构

昇腾CANN性能剖析实战：从工具使用到瓶颈定位的完整指南

本文系统解析了昇腾CANN性能剖析工具链的原理与应用。工具链采用三级数据采集架构，实现低开销高精度的性能分析，可显著提升硬件利用率至85%以上。文章详细介绍了性能数据采集策略、流水线效率分析方法，以及针对计算/内存瓶颈的优化技术，包括数据分块、双缓冲等。通过企业级案例展示了如何将NPU利用率从35%提升至78%。最后提出了建立自动化测试框架、持续优化文化等最佳实践，为开发者提供了完整的性能优化体系

#CANN #昇腾 #矩阵

实战：构建自定义算子并部署到昇腾硬件——从AscendC编程到CANN部署全流程解析

本文系统介绍AscendC自定义算子开发全流程，基于昇腾CANN软件栈，通过AddCustom算子实战演示三级流水线优化、多核并行计算等关键技术。文章详细解析了AscendC编程模型的核心架构设计理念，包括矢量编程范式、内存层次抽象和核函数编程模型，并提供了完整的环境配置、工程创建、核函数实现及性能优化方法。实验数据显示，优化后的自定义算子性能可达硬件峰值的80%以上，开发效率提升3倍。文中还分享

#昇腾 #CANN

Ascend C融合算子开发实战：从架构到性能的深度优化

本文基于AscendC开发经验，系统讲解自定义融合算子的实现全流程。以LayerNorm+GEMM为例，详细解析算子设计原理、AscendC内核实现、Tiling策略优化及PyTorch集成方法。通过实测数据展示融合算子3-5倍的性能提升，并分享企业级部署中的优化技巧与故障排查经验。文章包含完整的代码示例和架构图解，为开发者提供从理论到实践的AI芯片算力调优指南，助力突破大模型时代的内存墙瓶颈。

#架构 #开发语言 #CANN +1

ops-transformer仓揭秘：CANN融合算子的生态与架构

华为昇腾CANN生态中的ops-transformer仓通过算子融合、内存优化和智能调度三大技术，将Transformer模型端到端性能提升3-8倍。该仓库包含六大类重新设计的算子，如MC2通信计算融合和FlashAttention优化，通过三层架构实现硬件透明与灵活适配。实战案例显示，在万亿参数MoE模型优化中，延迟降低4.1倍，内存占用减少46%。未来将向自动算子融合、跨平台统一和生态平台化发

#transformer #架构 #深度学习 +2

从蓝图到实作：解剖Ascend C单算子工程的标准目录结构

本文将深入解析华为昇腾Ascend C单算子工程的标准目录架构。不同于简单的文件列表，我们将探究每个目录背后的设计哲学与工程考量。文章将从msopgen工具生成的工程模板出发，详解op_kernel/op_proto/framework/test/等核心目录的职责与协作关系。通过完整的加法算子实例，展示从JSON描述到编译测试的端到端开发流程。文中包含5个Mermaid架构图、真实项目中的目录优化

#服务器 #运维 #昇腾 +1

Ascend C Tiling调试与性能分析：从参数调优到性能瓶颈定位

本文系统阐述了AscendC算子开发中Tiling策略的调试与优化方法论。基于昇腾AI处理器架构特性，详细解析了Tiling参数调优、性能分析工具使用、瓶颈定位技巧等关键技术，并通过矩阵乘法和推荐系统等实战案例，展示了从算子级优化到硬件级性能极限的全流程。文章构建了包含理论分析、工具集成、自动化调优框架的完整性能优化体系，为开发者提供了从功能实现到性能极致的系统化解决方案。

#CANN #昇腾 #矩阵

AsNumpy的异构内存管理：Ascend C的Device-Heap机制与性能优化之道

本文深度解析华为昇腾AsNumpy库的Device-Heap异构内存管理技术，揭示了其在NPU计算中的关键突破。文章首先对比传统内存管理与Device-Heap的架构差异，详细剖析了内存池设计、VA指针映射和数据驻留策略三大核心技术。通过性能测试数据显示，该技术在中大规模数据场景下可带来60-70%的性能提升。实战部分提供了图像处理和金融风控两个典型案例，展示了批量传输、延迟同步等优化技巧。最后总

#性能优化 #开发语言 #CANN +1

共 88 条

请选择