logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Ascend C 算子调试艺术:深入探索基于Kernel与命令行的双模式调试

本文为AscendC算子调试的权威指南,系统介绍了两种核心调试方法:基于Kernel的调试(聚焦计算逻辑验证)和基于命令行的调试(侧重生产环境集成)。通过10+实战案例和性能数据对比,揭示了两种模式的协同价值:Kernel调试效率提升3-5倍,命令行调试可发现70%框架集成问题。文章提供完整的工具链方案,包括自动化测试套件、智能调试决策系统和性能分析工具,帮助开发者建立从算法验证到生产部署的全流程

文章图片
#人工智能#算法#昇腾 +1
CANN 8.0编译器革新与算子融合驱动大模型推理加速新范式

华为CANN8.0异构计算架构技术解析 本文深入剖析华为CANN8.0的技术创新,重点展示其七层软件栈架构如何通过三大核心技术实现性能突破:1)BiSheng编译器支持Triton前端,降低CUDA算子迁移成本90%;2)智能算子融合引擎实现89%融合覆盖率;3)P-D分离架构优化大模型推理性能20%+。关键技术包括动态资源调度、异构芯片统一封装和AIIR中间表示跨框架迁移能力,并配有Llama-

文章图片
#CANN#昇腾#Triton
Ascend C 编程范式革命:从传统异构计算到新一代AI原生编程

摘要:本文深入解析AscendC如何重构异构计算编程范式,通过AI原生设计理念实现开发效率与性能的突破性平衡。相比传统GPU编程(如CUDA),AscendC以极简API设计(代码量减少5-10倍)、自动硬件优化和多维并行抽象为核心优势,提供从训练到推理的全场景支持。关键技术包括:声明式编程模型(开发者聚焦计算意图)、硬件软件协同优化架构(编译器自动匹配硬件特性)、以及无缝的AI框架集成能力。实战

文章图片
#昇腾#CANN
Hello World的深度演进:一个Ascend C标量算子的性能剖析之旅

本文以Element-wiseAdd算子为例,系统阐述了AscendC在CANN全栈中的性能优化方法。通过5个版本迭代,从朴素实现(200GFLOPS)到极致优化(1.8TFLOPS),详细展示了三级存储协同、双缓冲流水线、向量化计算等关键技术,将硬件利用率从23%提升至89%。文章包含完整代码演进、实测数据对比和企业级实践案例,为复杂算子优化提供了方法论框架。最后分析了硬件极限并展望了Ascen

文章图片
#开发语言#昇腾#CANN +1
Triton IR 与 Ascend 指令集对比 - 编译器层优化深度解析

本文系统解析TritonIR与Ascend指令集的编译器优化技术,探讨从高级中间表示到底层硬件指令的完整降低流程。通过多层IR映射、指令选择算法、内存层次优化和并行模型适配等关键技术,可将算子性能提升至硬件峰值的80%以上。文章详细介绍了TritonIR体系结构、Ascend指令集特性、优化策略及实战案例,为AI编译器开发者提供从理论到实践的完整框架。未来展望部分讨论了AI驱动优化和跨平台编译架构

文章图片
#CANN#昇腾#GPU +1
Ascend C Host侧Shape推导原理与作用

本文系统阐述了AscendC异构计算中Host侧Shape推导的核心技术与工程实践。通过分析InferShape机制在动态Shape场景下的关键作用,详细介绍了编译期规则定义、运行时维度计算和内存预分配优化等核心技术。文章以Add算子为例,完整展示了从算子原型注册到Shape推导函数实现的全链路开发流程,重点解析了多维度广播推导、动态变量传递和边界条件处理等关键技术点。实测数据显示,合理的Shap

文章图片
#开发语言#昇腾#CANN
手把手实现基础 Tiling:构建你的第一个高性能 Ascend C 算子

本文详细介绍了基于AscendC开发高性能向量加法算子的完整流程。首先说明了开发环境要求和工程目录结构配置,重点阐述了Tiling策略的设计与实现,包括多种切分算法和优化方法。然后讲解了设备端Kernel的具体实现,特别是双缓冲优化技术。文章还包含了主机端接口设计、测试验证方法以及性能分析技巧,提供了从环境搭建、代码实现到测试优化的全流程指导。通过这个实例,开发者可以掌握AscendC算子开发的核

文章图片
#昇腾#CANN
Ascend C 性能优化指南:算子调用中的最佳实践与陷阱规避

本文将以您提供的PPT素材为基础,深度解析Ascend C算子开发中的性能优化技术与常见陷阱。通过详细的性能分析图表、优化策略对比、真实案例研究,系统性地阐述从内存访问模式、计算资源利用、流水线设计到系统级调优的全方位性能优化方法。文章包含大量性能对比数据、优化效果验证以及实际生产环境中的最佳实践,为您提供一套完整的性能优化方法论。通过系统性的性能优化,我们实现了显著的性能提升:优化阶段优化前性能

文章图片
#昇腾#CANN
Ascend C 核函数编程模型精解:从概念到实践掌握并行计算精髓

本文深度解析AscendC核函数编程模型,基于华为250个错误案例分析提出12类典型问题的解决方案。重点包括:1)从冯诺依曼到数据流架构的范式转变;2)SPMD执行模型与核函数本质;3)三级存储体系(GM-UB-Register)的协同编程;4)双缓冲流水线优化技术;5)多核同步与动态负载均衡机制。通过矩阵乘法等案例,展示从基础实现到高度优化的完整演进过程,并提供系统化的性能分析框架和优化策略。文

文章图片
#昇腾#CANN
让数据在NPU芯片里“跑”对路:Ascend C如何“驯服”Cube Unit

NPU(神经网络处理器)​ 和CPU/GPU根本是两码事,它的心脏是Cube Unit——一个专为矩阵乘加设计的“计算怪兽”。但怪兽有自己的脾气:它一次必须吃16×16×16的数据块,喂错了就“消化不良”。这篇文章不讲玄学,就用大白话告诉你:为什么你从PyTorch直接转过来的模型跑得慢?数据排布格式(Data Layout)是头号杀手。我会带你钻进昇腾达芬奇架构内部,看看Cube Unit和Ve

文章图片
#CANN#昇腾
    共 66 条
  • 1
  • 2
  • 3
  • 7
  • 请选择