logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

昇腾Ascend C实战:手撕MoeGatingTopK融合算子与MoE架构性能狂飙

摘要: 本文系统剖析了MoeGatingTopK融合算子在混合专家模型(MoE)中的核心作用,涵盖数学原理、AscendC实现及企业级部署全流程。作为CANN生态关键组件,该算子通过硬件协同优化(如DoubleBuffer、分块并行)实现专家路由的高效计算,支持万亿参数模型的低延迟推理。重点解析了TopK算法优化(O(n+klogk)复杂度)、负载均衡策略及分布式容错机制,并结合实战案例展示204

文章图片
#开发语言#昇腾#架构 +1
Triton-Ascend性能测试工具解析:从Profiler到Benchmark的完整指南

本文深入探讨了昇腾NPU生态下的性能优化方法论,重点介绍了torch_npu.profiler工具和科学Benchmark设计两大核心技术。通过真实案例剖析,揭示了性能测试中常见的"自嗨"陷阱,并提供了从微观算子优化到宏观系统调优的全套解决方案。文章详细讲解了如何利用三层数据关联的Profiler精准定位瓶颈,以及设计工业级Benchmark的黄金法则,包括预热策略、多形状覆盖

文章图片
#昇腾#CANN
Atlas 300I/V Pro加速卡架构解析 - 从硬件基础到模型迁移实践

本文深入剖析Atlas300I/VPro AI加速卡在大模型训练中的实战应用。作者基于InternVL3千亿参数模型迁移经验,从硬件架构特性(达芬奇架构、内存层次)到模型移植关键步骤(梯度分片、混合精度训练),再到算子性能优化(内存对齐、向量化计算)进行了全面讲解。文章包含完整的矩阵乘示例代码、性能调优技巧(单卡78%利用率提升)以及企业级案例数据(训练时间从12.5s优化至2.3s)。特别强调故

文章图片
#架构#昇腾#CANN
昇腾CANN与AsNumpy 数据科学计算范式的百倍重构之路

摘要:本文深入解析基于华为昇腾CANN架构的高性能科学计算库AsNumpy,揭示其从传统CPU到NPU的计算范式变革。通过AscendC编程模型,AsNumpy在张量运算规模突破临界点时实现百倍加速,核心在于智能内存管理、高效算子调度及硬件级优化。文章详细拆解其架构设计,包括NPUArray双缓冲机制、AscendC内核实现原理,并通过图像卷积实例展示实际应用。同时探讨企业级优化策略,展望AI原生

文章图片
#python#开发语言#昇腾 +1
Ascend C自定义Tiling参数解析 - 打造自适应算子

摘要 本文深入解析了AscendC中自定义Tiling机制的核心原理与实践方法。Tiling作为NPU算子开发的"命门",通过将大数据分块处理以适应芯片存储限制,显著提升计算效率。文章从静态与动态Tiling的对比入手,详细剖析了架构设计理念、核心算法实现和性能权衡。 重点内容包括: 动态Tiling结构体设计与Host-Device协作机制 实战案例:构建支持动态Shape的

文章图片
#人工智能#昇腾#CANN
解构MlaProlog:一个CV融合算子的设计哲学与实现范式

本文深入解析昇腾CANN框架中的MlaProlog融合算子设计,重点探讨了其创新的三级流水线架构与硬件感知优化策略。该算子通过计算-存储平衡设计、Cube/Vector单元协同计算及智能分块算法,在昇腾达芬奇架构上实现了94%的计算利用率,相比传统实现性能提升3.4倍。文章详细阐述了从算子融合理念、流水线编排到企业级部署的全流程技术方案,并提供了故障排查指南。研究显示,MlaProlog在阿里巴巴

文章图片
#昇腾#CANN
昇腾CANN性能剖析实战 - 从工具使用到深度优化

本文系统阐述了昇腾CANN性能剖析工具链的核心技术与实践方法。通过分层数据采集架构实现低开销高精度性能监测,重点分析了计算/内存瓶颈识别、流水线效率优化等关键技术。实战案例显示,采用系统化性能剖析可使算子优化效率提升300%,硬件利用率从45%提升至85%以上。文章详细介绍了从环境配置、数据采集到深度分析的完整流程,并提供了内存分块优化、双缓冲技术等具体优化策略。最后提出建立自动化性能测试框架和持

文章图片
#人工智能#昇腾#CANN
Ascend C与TensorFlow集成实战 - 自定义算子的模型部署与性能优化

本文深入探讨了AscendC自定义算子与TensorFlow框架的集成与部署全流程,构建了从底层算子开发到上层模型部署的完整技术栈。主要内容包括:1)AscendC与TensorFlow的集成架构设计;2)TensorFlow自定义算子开发机制;3)完整的AscendC Sigmoid算子集成实现方案;4)性能优化与测试分析;5)企业级部署实践;6)故障排查与调试技巧。通过具体案例展示了如何实现3

文章图片
#昇腾#CANN#开发语言
昇腾NPU架构设计 从抽象硬件模型到物理实现

昇腾NPU(Neural Processing Unit)作为华为自研的AI加速器,其架构设计体现了"软件定义硬件"与"硬件加速软件"的双向协同哲学。本文基于我十三年的芯片设计经验,深度解构昇腾达芬奇架构从抽象硬件模型到物理实现的完整技术栈。我们将揭示AI Core内部的Cube计算单元如何通过脉动阵列实现矩阵计算的硬件化,多级存储体系如何打破冯·诺依曼瓶颈,以及指令调度系统如何实现计算与搬运的完

文章图片
#人工智能#CANN#昇腾
Ascend C 编程模型初探:从概念到Hello World的硬核实践指南

架构理解:深入AI Core存储层次和计算单元核函数设计:掌握核函数编写规范和最佳实践性能优化:双缓冲、向量化、流水线等关键技术调试排查:企业级问题的系统化解决方法昇腾训练营简介:2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不同阶段开发者快速提升算子开发技能。获得Ascend C算子中级认证,即可领取精美证书,完成社区

文章图片
#人工智能#大数据#CANN
    共 68 条
  • 1
  • 2
  • 3
  • 7
  • 请选择