logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Graph Engine编译全流程 ONNX到OM转换链路

通过深入解析Graph Engine的编译链路,我们不仅理解了ONNX→OM转换的技术本质,更掌握了性能优化和故障排查的实用技能。在实际项目中,我强烈建议:🎯关键洞察不要盲目追求最高优化等级:Level 3优化在某些场景下反而会引入不稳定因素建立编译性能基线:针对不同模型类型建立耗时标准,快速发现异常关注内存使用模式:大模型编译时内存峰值往往是瓶颈所在随着模型复杂度的不断提升,编译技术的深度优化

文章图片
#neo4j#CANN
CANN Runtime性能计数器集成与硬件监控单元交互实战

性能计数器是NPU硬件提供的性能监控单元,能够精确统计各类硬件事件的发生次数,如计算单元利用率、内存带宽、缓存命中率等。本文深入解读CANN Runtime中性能计数器的使能(Enable)、采样(Sampling)、数据读取(Data Reading)​ 三大核心环节的底层驱动调用代码。通过分析ops-nn仓库相关源码,结合实战案例,揭示如何利用这些“硬件之眼”精准定位性能瓶颈,实现从“盲调”到

文章图片
#java#开发语言
CANN异步执行引擎回调链与完成通知机制深度剖析

本文深度解析CANN异步执行引擎中回调链与完成通知机制的核心设计。通过剖析回调触发原理、链式调用架构和异常传播机制,揭示高性能异步任务调度的关键技术。文章包含代码实现示例、性能对比数据(大型任务性能提升达65%)及企业级应用案例,展示如何通过智能调度最小化同步等待、最大化硬件利用率。重点探讨了回调批处理、动态优先级调整等优化技巧,并提供了回调链死锁、内存泄漏等常见问题的解决方案。该机制为开发者构建

文章图片
#CANN
昇腾Ascend C高性能算子优化:突破内存墙与计算墙的深度实践

本文是一份来自一线实战的昇腾CANN算子优化全攻略。我将以多年老兵的视角,直击AI计算两大核心矛盾——内存墙与计算墙,用大白话拆解在Ascend C层面系统化攻克它们的完整方法论。文章将彻底避开空洞理论,聚焦于我们团队在优化MoE、Transformer等大模型关键算子时,那些真正起作用的技术细节、踩过的深坑和提炼出的通用心法。从性能分析定位、数据类型革命、访存优化黑科技到计算流水线重构,我将提供

文章图片
#昇腾#CANN
Ascend C 硬件架构抽象:最大化硬件性能的深度优化实践

本文系统阐述了昇腾AI处理器硬件架构与AscendC编程模型的协同优化方法。通过分析达芬奇架构的三级计算单元(Cube/Vector/Scalar)和存储层次特性,提出基于硬件抽象的编程模型,实现开发效率与性能的平衡。重点展示了矩阵乘法算子的四级优化过程:从基础实现到分块优化、流水线并行、双缓冲技术,最终实现312.4GFLOPS(92%硬件利用率)的性能表现。针对企业级应用场景,详细介绍了动态负

文章图片
#硬件架构#开发语言#昇腾 +1
昇腾CANN从单算子到融合优化实战

本文系统介绍了基于昇腾CANN的算子开发进阶方法,从基础单算子实现到高级融合优化技术。重点解析了达芬奇架构设计、AscendC编程模型、三级流水线原理和算子融合等关键技术,通过Add算子实现和Conv+BiasAdd+ReLU融合案例展示了性能优化效果。实测数据显示,通过Tiling策略、流水线并行等技术可实现3-5倍性能提升,硬件利用率达85%以上。文章提供了完整代码示例、分步实现指南和常见问题

文章图片
#昇腾#CANN#架构
双核共舞 - MlaProlog中Cube与Vector单元的协同编程艺术

摘要:本文系统解析昇腾NPU中MlaProlog算子的双核协同编程机制,揭示达芬奇架构下Cube与Vector计算单元的高效协作原理。通过硬件架构分析、AscendC编程范式、计算依赖算法及智能流水线编排等核心技术,展示如何实现3-7倍性能提升。包含完整的注意力机制算子实现代码、多模态应用案例及性能优化策略,并提供双核负载均衡、内存带宽优化等典型问题的解决方案,为AI开发者提供从理论到工程实践的完

文章图片
#网络#昇腾#CANN +1
昇腾Ascend C高性能算子优化:突破内存墙与计算墙的深度实践

本文是一份来自一线实战的昇腾CANN算子优化全攻略。我将以多年老兵的视角,直击AI计算两大核心矛盾——内存墙与计算墙,用大白话拆解在Ascend C层面系统化攻克它们的完整方法论。文章将彻底避开空洞理论,聚焦于我们团队在优化MoE、Transformer等大模型关键算子时,那些真正起作用的技术细节、踩过的深坑和提炼出的通用心法。从性能分析定位、数据类型革命、访存优化黑科技到计算流水线重构,我将提供

文章图片
#昇腾#CANN
突破架构差异:实现 Triton 算子从 CUDA 到昇腾 NPU 的高效迁移

本文系统介绍了Triton算子从CUDA到昇腾NPU的跨平台迁移技术,提出包含硬件抽象层适配、内存模型转换和性能优化的完整迁移框架。通过架构差异分析、接口映射转换和计算资源重平衡等关键技术,实现了迁移成本降低70%、性能损失控制在15%以内的优化目标。文章详细阐述了网格配置迁移算法、内存访问优化策略等核心方法,并提供了生产级迁移框架实现和性能对比测试方案。基于13年异构计算经验,总结了典型迁移问题

文章图片
#昇腾#CANN#Triton
AsNumpy 的架构设计与 Ascend C 的底层赋能:从 Python 生态到 NPU 原生的高性能计算革命

AsNumpy 的成功,本质上是 Ascend C 编程模型与昇腾硬件架构深度协同的成功。它通过一套精巧的分层架构,将对开发者的友好度(Numpy API)和底层的执行效率(Ascend C Kernel)做到了极佳的平衡。核心价值:它为 Python 数据科学社区提供了一个“零学习成本”​ 的 NPU 加速通道,是推动 AI 计算普惠化的关键一环。未来展望:随着 CANN 的全面开源,AsNum

文章图片
#python#开发语言#CANN +1
    共 48 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择