logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Triton-Ascend自动调优实战 - 动态参数选择与性能瓶颈破解

📌摘要:本文深入解析Triton-Ascend自动调优技术,从核心原理到企业级实践。通过动态参数选择、性能瓶颈识别等关键技术,实现算子性能提升2-3倍、调优时间减少80%的效果。文章包含配置空间生成算法、多目标优化策略等实战内容,并分享真实案例数据:在推荐系统中实现延迟降低62.7%、吞吐量提升2.58倍的优化效果。最后展望AI驱动调优等未来趋势,为开发者提供从入门到精通的完整技术路线。(149

文章图片
#CANN#昇腾#架构
Ascend C算子开发入门:EmbeddingDenseGrad算子的正确实现与错误规避

各位搞AI训练的兄弟们,今天咱们掏心窝子聊聊EmbeddingDenseGrad这个算子。我干了多年AI芯片算子开发,在昇腾Atlas 300I/V Pro上踩过的坑比你们走过的路都多。这玩意儿看着简单,就是给Embedding层算梯度嘛,但真要搞出工业级可用的实现,能让模型稳定收敛还不拖慢训练速度,里面的门道深着呢。今天我就用大白话,结合InternVL3等大模型实战经验,告诉你哪些错不能犯,怎

文章图片
#昇腾#CANN
Ascend C内存体系深度剖析 - 从Global Memory到Unified Buffer的高效数据搬运

本文深入剖析昇腾NPU内存架构优化技术,聚焦达芬奇架构四级存储体系(Global Memory→Unified Buffer→L0/L1→寄存器)的数据搬运优化。通过矩阵乘法算子案例,详解数据对齐、双缓冲、流水线并行等关键技术,实现89%计算单元利用率。包含企业级优化经验(推荐系统特征处理实现3.2倍吞吐提升)和故障排查指南(内存碎片/带宽瓶颈解决方案),并展望计算存储一体化、智能预取等未来趋势。

文章图片
#昇腾#CANN#架构
昇腾CANN性能剖析实战:从工具使用到瓶颈定位的完整指南

本文系统解析了昇腾CANN性能剖析工具链的原理与应用。工具链采用三级数据采集架构,实现低开销高精度的性能分析,可显著提升硬件利用率至85%以上。文章详细介绍了性能数据采集策略、流水线效率分析方法,以及针对计算/内存瓶颈的优化技术,包括数据分块、双缓冲等。通过企业级案例展示了如何将NPU利用率从35%提升至78%。最后提出了建立自动化测试框架、持续优化文化等最佳实践,为开发者提供了完整的性能优化体系

文章图片
#CANN#昇腾#矩阵
实战:构建自定义算子并部署到昇腾硬件——从AscendC编程到CANN部署全流程解析

本文系统介绍AscendC自定义算子开发全流程,基于昇腾CANN软件栈,通过AddCustom算子实战演示三级流水线优化、多核并行计算等关键技术。文章详细解析了AscendC编程模型的核心架构设计理念,包括矢量编程范式、内存层次抽象和核函数编程模型,并提供了完整的环境配置、工程创建、核函数实现及性能优化方法。实验数据显示,优化后的自定义算子性能可达硬件峰值的80%以上,开发效率提升3倍。文中还分享

文章图片
#昇腾#CANN
Ascend C融合算子开发实战:从架构到性能的深度优化

本文基于AscendC开发经验,系统讲解自定义融合算子的实现全流程。以LayerNorm+GEMM为例,详细解析算子设计原理、AscendC内核实现、Tiling策略优化及PyTorch集成方法。通过实测数据展示融合算子3-5倍的性能提升,并分享企业级部署中的优化技巧与故障排查经验。文章包含完整的代码示例和架构图解,为开发者提供从理论到实践的AI芯片算力调优指南,助力突破大模型时代的内存墙瓶颈。

文章图片
#架构#开发语言#CANN +1
ops-transformer仓揭秘:CANN融合算子的生态与架构

华为昇腾CANN生态中的ops-transformer仓通过算子融合、内存优化和智能调度三大技术,将Transformer模型端到端性能提升3-8倍。该仓库包含六大类重新设计的算子,如MC2通信计算融合和FlashAttention优化,通过三层架构实现硬件透明与灵活适配。实战案例显示,在万亿参数MoE模型优化中,延迟降低4.1倍,内存占用减少46%。未来将向自动算子融合、跨平台统一和生态平台化发

文章图片
#transformer#架构#深度学习 +2
从蓝图到实作:解剖Ascend C单算子工程的标准目录结构

本文将深入解析华为昇腾Ascend C单算子工程的标准目录架构。不同于简单的文件列表,我们将探究每个目录背后的设计哲学与工程考量。文章将从msopgen工具生成的工程模板出发,详解op_kernel/op_proto/framework/test/等核心目录的职责与协作关系。通过完整的加法算子实例,展示从JSON描述到编译测试的端到端开发流程。文中包含5个Mermaid架构图、真实项目中的目录优化

文章图片
#服务器#运维#昇腾 +1
Ascend C Tiling调试与性能分析:从参数调优到性能瓶颈定位

本文系统阐述了AscendC算子开发中Tiling策略的调试与优化方法论。基于昇腾AI处理器架构特性,详细解析了Tiling参数调优、性能分析工具使用、瓶颈定位技巧等关键技术,并通过矩阵乘法和推荐系统等实战案例,展示了从算子级优化到硬件级性能极限的全流程。文章构建了包含理论分析、工具集成、自动化调优框架的完整性能优化体系,为开发者提供了从功能实现到性能极致的系统化解决方案。

文章图片
#CANN#昇腾#矩阵
AsNumpy的异构内存管理:Ascend C的Device-Heap机制与性能优化之道

本文深度解析华为昇腾AsNumpy库的Device-Heap异构内存管理技术,揭示了其在NPU计算中的关键突破。文章首先对比传统内存管理与Device-Heap的架构差异,详细剖析了内存池设计、VA指针映射和数据驻留策略三大核心技术。通过性能测试数据显示,该技术在中大规模数据场景下可带来60-70%的性能提升。实战部分提供了图像处理和金融风控两个典型案例,展示了批量传输、延迟同步等优化技巧。最后总

文章图片
#性能优化#开发语言#CANN +1
    共 88 条
  • 1
  • 2
  • 3
  • 9
  • 请选择