
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
【摘要】本文系统介绍了Ascend C算子从快速开发到标准工程的进阶过程,重点解析了标准开发模式的核心优势与实现方法。文章首先对比了两种开发模式的区别,强调标准开发在工程化、产品化和动态Shape支持等方面的优势。通过HOST-Device架构类比和数据处理流程,深入讲解了异构计算的数据流向。核心部分详细阐述了Tiling机制的概念体系、实现步骤和算法示例,包括结构体定义、函数实现和Kernel侧

本文介绍了CANN训练营Transformer算子专场的核心内容,包括OpenTransformer算子仓的架构设计、MOE通信优化技术、Flash Attention的昇腾实现以及低精度GMM算子优化。OpenTransformer为Transformer类大模型提供高性能算子支持,覆盖FNN、Attention、MOE等核心场景;针对MOE架构的通信瓶颈,提出共享内存和双缓冲等创新方案;FIA

这次CANN算子开源周Meetup的NN算子专场让我受益匪浅。从OPS-NN算子仓的整体架构,到MatMul算子的深度优化,再到"望闻问切"的性能分析方法论,每一部分都让我对昇腾NPU的算子开发有了更深的理解。核心要点回顾OPS-NN提供完整的神经网络算子覆盖MatMul是神经网络的"心脏",优化它至关重要性能优化的四大关键:计算强度、负载均衡、内存访问、流水线调度算子融合可以实现1+1>2的效果

【CANN训练营学习笔记摘要】计算机视觉算子优化实践 本文系统介绍了昇腾NPU的CV算子优化技术,分为架构解析与性能优化两大模块。在架构层面,详细讲解了CANN CV算子的三层体系(基础算子层、图像处理算子库、应用层算子)及目标检测类算子实现原理。性能优化部分重点剖析了插值类算子的四种方法(最邻近/双线性/双三次/三线性)及数学原理,提出三大优化策略:向量化优化(消除重复计算)、转置优化(解决访存

文章摘要 本文深入探讨了昇腾数据科学库AsNumpy的设计与实现,展示了其如何通过NPUArray数据结构、智能内存池和高效算子库在昇腾NPU上实现NumPy接口兼容的同时获得显著性能提升。关键亮点包括:三层架构设计实现无缝迁移;内存池优化减少分配开销;基于OpenBolt的40个核心算子极致优化;性能测试显示中等规模数据加速12倍,大规模数据加速100倍。文章还介绍了其在AI基础软件国产化进程中

老师用了一个特别生动的例子来解释SPMD(Single Program Multiple Data)模型:假设有5个人要做20张试卷,那么每人做4张,大家用的是同一套做题方法,但处理的是不同的卷子。将数据拆分并分布在多个核心上运行,多个AI Core共享同一代码。通过这次CANN训练营的学习,我深刻体会到Ascend C编程语言的强大之处。它既保持了C/C++的编程习惯,又提供了强大的并行计算能力

欢迎加入开源鸿蒙跨平台社区:https://openharmonycrossplatform.csdn.net在跨平台开发中,进度条组件是用户界面中不可或缺的一部分。无论是文件上传、页面加载还是多步骤表单,进度条都能为用户提供直观的反馈。本文将详细介绍中进度条组件的适配过程,包括线性进度条圆形进度条步骤条等核心功能的实现与使用。在前面的版本中,我们已经完成了数据展示、图表、弹窗、日期选择、下拉菜单

欢迎加入开源鸿蒙跨平台社区:https://openharmonycrossplatform.csdn.net在跨平台开发中,标签组件是一个非常常见的 UI 元素。无论是文章分类、用户画像、产品筛选还是技能展示,标签都能提供简洁直观的信息标记方式。本文将详细介绍中标签组件的适配过程,涵盖多种标签类型标签大小可关闭标签标签输入框等核心功能。在前面的版本中,我们已经完成了数据展示、图表、弹窗、日期选择

老师用了一个特别生动的例子来解释SPMD(Single Program Multiple Data)模型:假设有5个人要做20张试卷,那么每人做4张,大家用的是同一套做题方法,但处理的是不同的卷子。将数据拆分并分布在多个核心上运行,多个AI Core共享同一代码。通过这次CANN训练营的学习,我深刻体会到Ascend C编程语言的强大之处。它既保持了C/C++的编程习惯,又提供了强大的并行计算能力

文章摘要 本文深入探讨了昇腾数据科学库AsNumpy的设计与实现,展示了其如何通过NPUArray数据结构、智能内存池和高效算子库在昇腾NPU上实现NumPy接口兼容的同时获得显著性能提升。关键亮点包括:三层架构设计实现无缝迁移;内存池优化减少分配开销;基于OpenBolt的40个核心算子极致优化;性能测试显示中等规模数据加速12倍,大规模数据加速100倍。文章还介绍了其在AI基础软件国产化进程中








