logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Ascend C 内存体系深潜:从硬件原理到极致优化,掌握Global Memory、UB与L1 Cache的高效数据搬运策略

摘要:本文系统解析昇腾AI处理器的多级内存架构,重点探讨Global Memory、Unified Buffer和L1 Cache的性能特性与协同机制。通过实测数据对比各层级内存的带宽/延迟差异,提出Double Buffer、向量化访问等核心优化技术,并给出完整的AscendC实现代码。文章包含矩阵乘法优化案例及大模型训练中的内存管理策略,提供性能分析工具使用指南,帮助开发者突破内存瓶颈,实现计

文章图片
#CANN#昇腾
Ascend C 算子调试艺术:深入探索基于Kernel与命令行的双模式调试

本文为AscendC算子调试的权威指南,系统介绍了两种核心调试方法:基于Kernel的调试(聚焦计算逻辑验证)和基于命令行的调试(侧重生产环境集成)。通过10+实战案例和性能数据对比,揭示了两种模式的协同价值:Kernel调试效率提升3-5倍,命令行调试可发现70%框架集成问题。文章提供完整的工具链方案,包括自动化测试套件、智能调试决策系统和性能分析工具,帮助开发者建立从算法验证到生产部署的全流程

文章图片
#人工智能#算法#昇腾 +1
超越CUDA:Triton硬件无关性在昇腾平台上的实现挑战与突破

摘要:本文系统研究了Triton硬件无关编程模型在昇腾AI处理器上的实现机制。针对CUDA生态锁定问题,深入解析了Triton中间表示层对异构计算的抽象方法,重点探讨了SPMD模型与昇腾达芬奇架构的映射策略。通过矩阵乘法和卷积算子的完整移植案例,展示了从CUDA到Ascend的代码迁移过程,并首次公开了在万亿参数推荐系统中的实战性能数据。研究表明,Triton-on-Ascend方案能保持90%以

文章图片
#昇腾#CANN#Triton
Ascend C 性能优化指南:算子调用中的最佳实践与陷阱规避

本文将以您提供的PPT素材为基础,深度解析Ascend C算子开发中的性能优化技术与常见陷阱。通过详细的性能分析图表、优化策略对比、真实案例研究,系统性地阐述从内存访问模式、计算资源利用、流水线设计到系统级调优的全方位性能优化方法。文章包含大量性能对比数据、优化效果验证以及实际生产环境中的最佳实践,为您提供一套完整的性能优化方法论。通过系统性的性能优化,我们实现了显著的性能提升:优化阶段优化前性能

文章图片
#昇腾#CANN
Triton - Ascend算子性能测试指标全解析:从理论基准到优化实践

本文系统介绍了Triton在昇腾AI处理器上的算子性能测试与优化方法。首先构建了包含吞吐量、延迟、计算利用率等指标的测试体系,详细分析了昇腾硬件特性对性能测试的影响。通过矩阵乘法等核心算子的完整测试流程,展示了从环境配置、性能测量到结果可视化的实践方法。文章深入探讨了瓶颈定位框架、DLCompiler优化特性及内存访问模式优化等高级技巧,并以Attention算子为例演示了性能优化全过程。最后提出

文章图片
#昇腾#CANN
CANN 8.0编译器革新与算子融合驱动大模型推理加速新范式

华为CANN8.0异构计算架构技术解析 本文深入剖析华为CANN8.0的技术创新,重点展示其七层软件栈架构如何通过三大核心技术实现性能突破:1)BiSheng编译器支持Triton前端,降低CUDA算子迁移成本90%;2)智能算子融合引擎实现89%融合覆盖率;3)P-D分离架构优化大模型推理性能20%+。关键技术包括动态资源调度、异构芯片统一封装和AIIR中间表示跨框架迁移能力,并配有Llama-

文章图片
#CANN#昇腾#Triton
Ascend C 编程范式革命:从传统异构计算到新一代AI原生编程

摘要:本文深入解析AscendC如何重构异构计算编程范式,通过AI原生设计理念实现开发效率与性能的突破性平衡。相比传统GPU编程(如CUDA),AscendC以极简API设计(代码量减少5-10倍)、自动硬件优化和多维并行抽象为核心优势,提供从训练到推理的全场景支持。关键技术包括:声明式编程模型(开发者聚焦计算意图)、硬件软件协同优化架构(编译器自动匹配硬件特性)、以及无缝的AI框架集成能力。实战

文章图片
#昇腾#CANN
Ascend C Host侧Shape推导原理与作用

本文系统阐述了AscendC异构计算中Host侧Shape推导的核心技术与工程实践。通过分析InferShape机制在动态Shape场景下的关键作用,详细介绍了编译期规则定义、运行时维度计算和内存预分配优化等核心技术。文章以Add算子为例,完整展示了从算子原型注册到Shape推导函数实现的全链路开发流程,重点解析了多维度广播推导、动态变量传递和边界条件处理等关键技术点。实测数据显示,合理的Shap

文章图片
#开发语言#昇腾#CANN
Ascend C 核函数编程模型精解:从概念到实践掌握并行计算精髓

本文深度解析AscendC核函数编程模型,基于华为250个错误案例分析提出12类典型问题的解决方案。重点包括:1)从冯诺依曼到数据流架构的范式转变;2)SPMD执行模型与核函数本质;3)三级存储体系(GM-UB-Register)的协同编程;4)双缓冲流水线优化技术;5)多核同步与动态负载均衡机制。通过矩阵乘法等案例,展示从基础实现到高度优化的完整演进过程,并提供系统化的性能分析框架和优化策略。文

文章图片
#昇腾#CANN
Hello World的深度演进:一个Ascend C标量算子的性能剖析之旅

本文以Element-wiseAdd算子为例,系统阐述了AscendC在CANN全栈中的性能优化方法。通过5个版本迭代,从朴素实现(200GFLOPS)到极致优化(1.8TFLOPS),详细展示了三级存储协同、双缓冲流水线、向量化计算等关键技术,将硬件利用率从23%提升至89%。文章包含完整代码演进、实测数据对比和企业级实践案例,为复杂算子优化提供了方法论框架。最后分析了硬件极限并展望了Ascen

文章图片
#开发语言#昇腾#CANN +1
    共 48 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择