logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Ascend C与CANN架构深度解析:从硬件融合到算子开发实战

🚀摘要:本文深度解析昇腾AI软件栈CANN的"软硬件协同"设计精髓,将AscendC编程模型比作连接AI算法与NPU硬件的"神级翻译官"。文章通过实战案例揭示三级存储架构的关键性,指出"数据搬运"比"计算"更影响性能的核心认知,并演示双缓冲流水线优化的向量加法实现。作者提出两种开发范式:快速原型适合算法验证,工程化手

文章图片
#架构#昇腾#CANN
形状推导的智能:实现 Ascend C 算子动态 Shape 自适应计算的关键

摘要:本文系统阐述了AscendC动态Shape自适应计算技术,提出完整的智能形状推导架构。从动态Shape的数学本质出发,详细介绍了动态分块算法、形状推导引擎设计、运行时自适应优化等核心技术,并以Softmax算子为例展示了性能与通用性的平衡方案。文章创新性地提出了动态自适应流水线和混合Shape处理策略,为复杂AI场景下的算子开发提供了理论指导和实践参考,解决了传统静态优化方法在可变输入场景下

文章图片
#昇腾#CANN
Ascend C API 详解:核心接口用法与高性能编程实践

本文系统介绍了AscendC API的高效使用方法,重点剖析了NPU编程的关键技术。内容涵盖:1)环境初始化陷阱与防御性编程模板;2)内存分配策略对性能的影响;3)核函数声明规范与三种内存空间修饰符的实战应用;4)矩阵乘法从基础到流水线优化的完整实现,性能可达85%硬件利用率;5)7个API使用黄金法则和常见故障排查方法。通过深入硬件特性分析,指导开发者突破性能瓶颈,并展望了API未来发展趋势。强

文章图片
#开发语言#昇腾#CANN
Ascend C 与 CUDA 的对比分析-为异构计算开发者提供迁移指南

本文系统对比了AscendC与CUDA在异构计算领域的核心差异。通过架构哲学、编程模型、性能特性三个维度深入分析:1)AscendC采用AI原生设计,CUDA侧重通用加速;2)AscendC任务块级抽象相比CUDA线程级模型更简化开发;3)实测显示AscendC在大矩阵运算能效比提升32%,内存带宽利用率达92%。文章提供完整迁移方法论,包括双缓冲优化、混合精度计算等核心技巧,并附企业级案例验证迁

文章图片
#人工智能#开发语言#昇腾 +2
NPU编程范式的革命 - 基于MlaProlog案例的“软件定义计算流“实践

本文深入探讨NPU编程范式的变革,重点分析从控制流向数据流范式的转变。以昇腾MlaProlog融合算子为例,揭示了达芬奇架构的硬件特性及传统编程范式在NPU上的局限性,提出了基于数据流驱动的协同设计方法。通过完整的MlaProlog算子实现案例,展示了软硬协同优化带来的3-5倍性能提升,包括计算单元利用率优化、内存访问优化和流水线并行度提升等关键技术。文章还分享了企业级应用案例和高级调试技巧,为A

文章图片
#昇腾#CANN
矩阵乘法 神经网络与大模型的核心计算引擎深度解析

本文系统阐述了深度学习核心算子矩阵乘法在昇腾NPU上的全链路优化方法。作者基于13年高性能计算经验,详细解析了从数学原理到硬件映射的优化体系,重点介绍了CANN软件栈通过分块策略、流水线并行和内存层级优化将NPU计算单元利用率从25%提升至85%的关键技术。文章包含完整的AscendC MatMul算子实现流程,涵盖基础实现到极致优化的五个阶段,并分享了千亿参数大模型训练中的典型性能陷阱解决方案。

文章图片
#矩阵#神经网络#线性代数 +2
Ascend C Tiling设计自动化 - 基于NPU存储单元的动态分块策略

本文提出了一个动态自适应Tiling系统,能够根据NPU存储单元实时状态自动生成最优分块策略。系统通过实时监控硬件状态(L1/L0 Buffer利用率、温度等),采用多目标优化算法动态调整Tiling参数,相比固定Tiling策略将矩阵乘法的硬件利用率从65%提升至89%。文章详细介绍了系统架构、核心算法和AscendC实现方案,并总结了7条黄金法则:存储使用率控制在70-85%、Bank冲突率低

文章图片
#昇腾#CANN
深入剖析Torch与Ascend C的互操作机制

本文深入剖析了PyTorch与昇腾AI处理器(NPU)的底层互操作机制,重点介绍了torch_npu框架中td::mm::内存管理器的核心技术。通过三级缓存策略和四维调度机制,实现了张量内存的高效管理,将内存拷贝开销降低95.8%。文章详细展示了从Python层到NPU指令的完整调用链路,包含算子注册、内存管理和计算图转换三大核心技术,并提供了可运行的自定义矩阵乘法算子实现示例。实测数据显示,优化

文章图片
#昇腾#CANN#架构
复杂算子实战 - Triton实现昇腾上的Gather算子优化

本文系统研究了Gather算子在昇腾NPU上的Triton优化实现,针对推荐系统等场景中的嵌入式表示查找问题,提出多级并行架构、内存访问优化、动态负载均衡等关键技术方案。实验表明,该方案在典型场景下实现3.2倍性能提升和45%内存效率提升,为NPU算子开发提供了可复用的最佳实践。文章详细解析了Gather算子的计算特性与NPU适配挑战,给出生产级实现代码和性能优化策略,并展望了AI驱动调优等未来方

文章图片
#昇腾#CANN
Ascend C 算子开发全流程揭秘 - 从 msopgen 到精度校验

本文系统介绍了昇腾AI处理器上基于AscendC的自定义算子全流程开发方法。首先阐述了msopgen工具链的核心作用,解析了其生成的标准项目结构;深入讲解了AscendC算子的三层流水线架构原理(Copy-In、Compute、Copy-Out)。通过构建Add算子的实战案例,详细展示了从工程生成、内核函数实现到主机端调用的完整开发过程,并重点强调了精度校验作为质量保障的关键环节。文章还提供了企业

文章图片
#前端#昇腾#CANN
    共 84 条
  • 1
  • 2
  • 3
  • 9
  • 请选择