logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

昇腾CANN从架构原理到性能优化的实战指南

本文深入解析华为昇腾CANN异构计算架构的技术原理与应用实践。重点剖析达芬奇架构的三维立方计算范式、CANN软件栈分层设计及AscendC编程模型,详细阐述三级流水线与双缓冲技术实现3-5倍计算效率提升、算子融合优化降低40%内存开销等核心技术。通过ResNet-50优化实例和性能分析数据,展示CANN在矩阵运算(92%计算效率)和注意力机制等场景的实际表现。文章提供从环境配置、算子开发到故障排查

文章图片
#架构#性能优化#CANN +1
Ascend C与AI框架的深度融合 - TBE接口与自定义算子封装实践

本文深入探讨了AscendC算子与主流AI框架(PyTorch、TensorFlow、MindSpore)的全链路集成技术。文章系统解析了TBE接口封装原理,详细介绍了自定义算子的框架注册、内存管理、计算图优化等核心机制,并提供了完整的融合算子实现示例。通过性能对比数据和架构图,展示了如何将底层硬件算力转化为框架级性能提升。关键创新点包括:统一内存管理策略降低30%内存开销、算子融合技术提升1.5

文章图片
#昇腾#CANN#架构
Ascend C与TensorFlow集成实战 - 自定义算子的模型部署与性能优化

本文深入探讨了AscendC自定义算子与TensorFlow框架的集成与部署全流程,构建了从底层算子开发到上层模型部署的完整技术栈。主要内容包括:1)AscendC与TensorFlow的集成架构设计;2)TensorFlow自定义算子开发机制;3)完整的AscendC Sigmoid算子集成实现方案;4)性能优化与测试分析;5)企业级部署实践;6)故障排查与调试技巧。通过具体案例展示了如何实现3

文章图片
#昇腾#CANN#开发语言
昇腾硬件架构与Triton编程模型的完美融合:计算单元与内存层次优化

本文深入探讨昇腾AI处理器达芬奇架构与Triton编程模型的高效融合机制。重点解析Cube/Vector/Scalar三级计算单元的特性和内存层次结构优化策略,通过完整的矩阵乘法和卷积算子实战,展示如何充分发挥硬件潜力。文章包含大量性能对比数据和优化案例,为开发者提供从理论到实践的完整指南。基于大量实战经验,总结出昇腾硬件优化的黄金法则🎯 计算单元匹配:根据计算类型选择最优的计算单元🚀 内存层

文章图片
#硬件架构#昇腾#CANN +1
Ascend C算子开发“第一行代码“:从环境配置到Hello World核函数

本文系统介绍了昇腾AI生态中AscendC算子开发的全流程实践指南。主要内容包括:1)技术原理部分详细解析AscendC的NPU编程范式、达芬奇架构内存层次和核心编程模型;2)实战部分从环境配置到完整算子部署,通过向量加法案例展示核函数设计、内存管理和编译流程;3)高级应用部分分享企业级优化经验,包括性能调优、多核负载均衡和混合精度计算;4)提供官方文档索引和学习路径建议。文章包含完整代码示例、性

文章图片
#昇腾#CANN#架构
Ascend C算子开发全景图 - 两种核心路径深度对比与选型指南

本文深度解析了昇腾CANN算子开发的两种核心模式:快速开发模式与算子工程模式。快速开发模式通过高层API实现快速算法验证,适合非性能关键算子;算子工程模式则通过精细控制数据流和计算流水线获得极致性能,适合核心瓶颈算子。文章通过代码示例和性能数据对比,提出了四象限选型法,并分享了企业级项目中的混合策略实战经验。最后展望了AI编译优化和DSL等未来技术趋势,为开发者提供了从入门到精通的完整技术路径。

文章图片
#昇腾#CANN
Ascend C自定义Tiling参数解析 - 打造自适应算子

摘要 本文深入解析了AscendC中自定义Tiling机制的核心原理与实践方法。Tiling作为NPU算子开发的"命门",通过将大数据分块处理以适应芯片存储限制,显著提升计算效率。文章从静态与动态Tiling的对比入手,详细剖析了架构设计理念、核心算法实现和性能权衡。 重点内容包括: 动态Tiling结构体设计与Host-Device协作机制 实战案例:构建支持动态Shape的

文章图片
#人工智能#昇腾#CANN
昇腾CANN与AsNumpy 数据科学计算范式的百倍重构之路

摘要:本文深入解析基于华为昇腾CANN架构的高性能科学计算库AsNumpy,揭示其从传统CPU到NPU的计算范式变革。通过AscendC编程模型,AsNumpy在张量运算规模突破临界点时实现百倍加速,核心在于智能内存管理、高效算子调度及硬件级优化。文章详细拆解其架构设计,包括NPUArray双缓冲机制、AscendC内核实现原理,并通过图像卷积实例展示实际应用。同时探讨企业级优化策略,展望AI原生

文章图片
#python#开发语言#昇腾 +1
昇腾Ascend C实战:手撕MoeGatingTopK融合算子与MoE架构性能狂飙

摘要: 本文系统剖析了MoeGatingTopK融合算子在混合专家模型(MoE)中的核心作用,涵盖数学原理、AscendC实现及企业级部署全流程。作为CANN生态关键组件,该算子通过硬件协同优化(如DoubleBuffer、分块并行)实现专家路由的高效计算,支持万亿参数模型的低延迟推理。重点解析了TopK算法优化(O(n+klogk)复杂度)、负载均衡策略及分布式容错机制,并结合实战案例展示204

文章图片
#开发语言#昇腾#架构 +1
Triton-Ascend性能测试工具解析:从Profiler到Benchmark的完整指南

本文深入探讨了昇腾NPU生态下的性能优化方法论,重点介绍了torch_npu.profiler工具和科学Benchmark设计两大核心技术。通过真实案例剖析,揭示了性能测试中常见的"自嗨"陷阱,并提供了从微观算子优化到宏观系统调优的全套解决方案。文章详细讲解了如何利用三层数据关联的Profiler精准定位瓶颈,以及设计工业级Benchmark的黄金法则,包括预热策略、多形状覆盖

文章图片
#昇腾#CANN
    共 53 条
  • 1
  • 2
  • 3
  • 6
  • 请选择