
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文系统阐述了MoeGatingTopK在昇腾平台上的分片设计方法,提出三大核心技术:1)多层次动态分片策略,实现97.8%的强扩展效率;2)智能负载均衡算法,有效应对万亿参数MoE模型的稀疏性问题;3)分层分片架构,在2048张昇腾910芯片上验证了企业级部署可行性。通过数学建模、硬件约束分析、算法优化到工程实现的完整闭环,形成可复用的分片设计范式,最终实现5.8倍的性能提升。文章包含性能优化模

本文系统解析TritonIR与Ascend指令集的编译器优化技术,探讨从高级中间表示到底层硬件指令的完整降低流程。通过多层IR映射、指令选择算法、内存层次优化和并行模型适配等关键技术,可将算子性能提升至硬件峰值的80%以上。文章详细介绍了TritonIR体系结构、Ascend指令集特性、优化策略及实战案例,为AI编译器开发者提供从理论到实践的完整框架。未来展望部分讨论了AI驱动优化和跨平台编译架构

NPU(神经网络处理器) 和CPU/GPU根本是两码事,它的心脏是Cube Unit——一个专为矩阵乘加设计的“计算怪兽”。但怪兽有自己的脾气:它一次必须吃16×16×16的数据块,喂错了就“消化不良”。这篇文章不讲玄学,就用大白话告诉你:为什么你从PyTorch直接转过来的模型跑得慢?数据排布格式(Data Layout)是头号杀手。我会带你钻进昇腾达芬奇架构内部,看看Cube Unit和Ve

本文深入解析了在昇腾AI处理器上优化通用矩阵乘法(GEMM)的核心技术。基于达芬奇架构的硬件特性,文章系统介绍了循环分块、双缓冲、寄存器优化等关键技术,将GEMM计算效率从基础实现的20%提升至接近硬件峰值算力的85%以上。通过完整的高度优化GEMM内核实现,展示了如何利用Cube计算单元、分层存储体系和指令级并行等硬件特性,为AI开发者提供了从理论到实践的完整优化指南。实测数据显示,优化后的GE

本文以Element-wiseAdd算子为例,系统阐述了AscendC在CANN全栈中的性能优化方法。通过5个版本迭代,从朴素实现(200GFLOPS)到极致优化(1.8TFLOPS),详细展示了三级存储协同、双缓冲流水线、向量化计算等关键技术,将硬件利用率从23%提升至89%。文章包含完整代码演进、实测数据对比和企业级实践案例,为复杂算子优化提供了方法论框架。最后分析了硬件极限并展望了Ascen

本文系统阐述了AscendC异构计算中Host侧Shape推导的核心技术与工程实践。通过分析InferShape机制在动态Shape场景下的关键作用,详细介绍了编译期规则定义、运行时维度计算和内存预分配优化等核心技术。文章以Add算子为例,完整展示了从算子原型注册到Shape推导函数实现的全链路开发流程,重点解析了多维度广播推导、动态变量传递和边界条件处理等关键技术点。实测数据显示,合理的Shap

华为CANN8.0异构计算架构技术解析 本文深入剖析华为CANN8.0的技术创新,重点展示其七层软件栈架构如何通过三大核心技术实现性能突破:1)BiSheng编译器支持Triton前端,降低CUDA算子迁移成本90%;2)智能算子融合引擎实现89%融合覆盖率;3)P-D分离架构优化大模型推理性能20%+。关键技术包括动态资源调度、异构芯片统一封装和AIIR中间表示跨框架迁移能力,并配有Llama-

云端托管、容器化部署与物理机直装。我们将聚焦CANN(Compute Architecture for Neural Networks)软件栈的架构设计,揭示其模块化松耦合的核心理念。文章将提供一套可复现的“从零到一” 环境搭建与验证流程,包括硬件兼容性校验、驱动与固件联调、CANN Toolkit安装,以及关键的算子“金标准”验证方案。通过5个核心Mermaid架构图、实测性能数据对比(物理机

摘要:本文系统解析昇腾AI处理器的多级内存架构,重点探讨Global Memory、Unified Buffer和L1 Cache的性能特性与协同机制。通过实测数据对比各层级内存的带宽/延迟差异,提出Double Buffer、向量化访问等核心优化技术,并给出完整的AscendC实现代码。文章包含矩阵乘法优化案例及大模型训练中的内存管理策略,提供性能分析工具使用指南,帮助开发者突破内存瓶颈,实现计

本文将以您提供的PPT素材为基础,深度解析Ascend C算子开发中的性能优化技术与常见陷阱。通过详细的性能分析图表、优化策略对比、真实案例研究,系统性地阐述从内存访问模式、计算资源利用、流水线设计到系统级调优的全方位性能优化方法。文章包含大量性能对比数据、优化效果验证以及实际生产环境中的最佳实践,为您提供一套完整的性能优化方法论。通过系统性的性能优化,我们实现了显著的性能提升:优化阶段优化前性能








