qq_39757921 个人主页

@qq_39757921

qq_39757921

2022-11-15 15:18:13 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

MoeGatingTopK 的分片设计哲学：数据并行的艺术与工程实践

本文系统阐述了MoeGatingTopK在昇腾平台上的分片设计方法，提出三大核心技术：1）多层次动态分片策略，实现97.8%的强扩展效率；2）智能负载均衡算法，有效应对万亿参数MoE模型的稀疏性问题；3）分层分片架构，在2048张昇腾910芯片上验证了企业级部署可行性。通过数学建模、硬件约束分析、算法优化到工程实现的完整闭环，形成可复用的分片设计范式，最终实现5.8倍的性能提升。文章包含性能优化模

#人工智能 #昇腾 #CANN

Triton IR 与 Ascend 指令集对比 - 编译器层优化深度解析

本文系统解析TritonIR与Ascend指令集的编译器优化技术，探讨从高级中间表示到底层硬件指令的完整降低流程。通过多层IR映射、指令选择算法、内存层次优化和并行模型适配等关键技术，可将算子性能提升至硬件峰值的80%以上。文章详细介绍了TritonIR体系结构、Ascend指令集特性、优化策略及实战案例，为AI编译器开发者提供从理论到实践的完整框架。未来展望部分讨论了AI驱动优化和跨平台编译架构

#CANN #昇腾 #GPU +1

让数据在NPU芯片里“跑”对路：Ascend C如何“驯服”Cube Unit

NPU（神经网络处理器）和CPU/GPU根本是两码事，它的心脏是Cube Unit——一个专为矩阵乘加设计的“计算怪兽”。但怪兽有自己的脾气：它一次必须吃16×16×16的数据块，喂错了就“消化不良”。这篇文章不讲玄学，就用大白话告诉你：为什么你从PyTorch直接转过来的模型跑得慢？数据排布格式（Data Layout）是头号杀手。我会带你钻进昇腾达芬奇架构内部，看看Cube Unit和Ve

#CANN #昇腾

从MlaProlog的Matmul设计到高性能GEMM内核优化

本文深入解析了在昇腾AI处理器上优化通用矩阵乘法(GEMM)的核心技术。基于达芬奇架构的硬件特性，文章系统介绍了循环分块、双缓冲、寄存器优化等关键技术，将GEMM计算效率从基础实现的20%提升至接近硬件峰值算力的85%以上。通过完整的高度优化GEMM内核实现，展示了如何利用Cube计算单元、分层存储体系和指令级并行等硬件特性，为AI开发者提供了从理论到实践的完整优化指南。实测数据显示，优化后的GE

#CANN #昇腾

Hello World的深度演进：一个Ascend C标量算子的性能剖析之旅

本文以Element-wiseAdd算子为例，系统阐述了AscendC在CANN全栈中的性能优化方法。通过5个版本迭代，从朴素实现(200GFLOPS)到极致优化(1.8TFLOPS)，详细展示了三级存储协同、双缓冲流水线、向量化计算等关键技术，将硬件利用率从23%提升至89%。文章包含完整代码演进、实测数据对比和企业级实践案例，为复杂算子优化提供了方法论框架。最后分析了硬件极限并展望了Ascen

#开发语言 #昇腾 #CANN +1

Ascend C Host侧Shape推导原理与作用

本文系统阐述了AscendC异构计算中Host侧Shape推导的核心技术与工程实践。通过分析InferShape机制在动态Shape场景下的关键作用，详细介绍了编译期规则定义、运行时维度计算和内存预分配优化等核心技术。文章以Add算子为例，完整展示了从算子原型注册到Shape推导函数实现的全链路开发流程，重点解析了多维度广播推导、动态变量传递和边界条件处理等关键技术点。实测数据显示，合理的Shap

#开发语言 #昇腾 #CANN

CANN 8.0编译器革新与算子融合驱动大模型推理加速新范式

华为CANN8.0异构计算架构技术解析本文深入剖析华为CANN8.0的技术创新，重点展示其七层软件栈架构如何通过三大核心技术实现性能突破：1）BiSheng编译器支持Triton前端，降低CUDA算子迁移成本90%；2）智能算子融合引擎实现89%融合覆盖率；3）P-D分离架构优化大模型推理性能20%+。关键技术包括动态资源调度、异构芯片统一封装和AIIR中间表示跨框架迁移能力，并配有Llama-

#CANN #昇腾 #Triton

筑巢引凤 - Ascend C开发环境极速部署与验证全攻略

云端托管、容器化部署与物理机直装。我们将聚焦CANN（Compute Architecture for Neural Networks）软件栈的架构设计，揭示其模块化松耦合的核心理念。文章将提供一套可复现的“从零到一” 环境搭建与验证流程，包括硬件兼容性校验、驱动与固件联调、CANN Toolkit安装，以及关键的算子“金标准”验证方案。通过5个核心Mermaid架构图、实测性能数据对比（物理机

#CANN #昇腾

Ascend C 内存体系深潜：从硬件原理到极致优化，掌握Global Memory、UB与L1 Cache的高效数据搬运策略

摘要：本文系统解析昇腾AI处理器的多级内存架构，重点探讨Global Memory、Unified Buffer和L1 Cache的性能特性与协同机制。通过实测数据对比各层级内存的带宽/延迟差异，提出Double Buffer、向量化访问等核心优化技术，并给出完整的AscendC实现代码。文章包含矩阵乘法优化案例及大模型训练中的内存管理策略，提供性能分析工具使用指南，帮助开发者突破内存瓶颈，实现计

#CANN #昇腾

Ascend C 性能优化指南：算子调用中的最佳实践与陷阱规避

本文将以您提供的PPT素材为基础，深度解析Ascend C算子开发中的性能优化技术与常见陷阱。通过详细的性能分析图表、优化策略对比、真实案例研究，系统性地阐述从内存访问模式、计算资源利用、流水线设计到系统级调优的全方位性能优化方法。文章包含大量性能对比数据、优化效果验证以及实际生产环境中的最佳实践，为您提供一套完整的性能优化方法论。通过系统性的性能优化，我们实现了显著的性能提升：优化阶段优化前性能

#昇腾 #CANN

共 85 条

请选择