logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

GE图引擎:昇腾NPU上的“流水线调度员“到底在干什么

图引擎(GE)是昇腾NPU架构中的关键优化层,负责将动态图转换为静态计算图并进行深度优化。其核心工作包括:1)构建计算图;2)算子融合(如合并Conv+BN+ReLU);3)内存优化(显存复用和重计算);4)数据排布优化;5)执行调度。通过全局视角的优化,GE能显著减少显存读写次数,提升计算密度。若NPU性能未达预期,可能因动态shape、自定义算子或CANN版本过老导致优化失效。开发者可通过日志

文章图片
#算法#数据结构
GE图引擎:昇腾NPU上的“流水线调度员“到底在干什么

图引擎(GE)是昇腾NPU架构中的关键优化层,负责将动态图转换为静态计算图并进行深度优化。其核心工作包括:1)构建计算图;2)算子融合(如合并Conv+BN+ReLU);3)内存优化(显存复用和重计算);4)数据排布优化;5)执行调度。通过全局视角的优化,GE能显著减少显存读写次数,提升计算密度。若NPU性能未达预期,可能因动态shape、自定义算子或CANN版本过老导致优化失效。开发者可通过日志

文章图片
#算法#数据结构
CANN到底是什么?昇腾NPU上的“操作系统+发动机调校师“全拆解

昇腾CANN架构解析:从模型到NPU的全栈优化 CANN是昇腾NPU的核心软件栈,相当于GPU生态中的CUDA+cuDNN+TensorRT组合。文章通过汽车引擎的比喻,形象地解释了CANN的五层架构体系:最上层的AscendCL作为统一接口,中间的计算服务层提供现成算子库,核心的图引擎(GE)负责计算图优化,Runtime执行层管理硬件资源,底层驱动完成芯片交互。作者以PyTorch模型在NPU

文章图片
#算法#数据结构
CANN到底是什么?昇腾NPU上的“操作系统+发动机调校师“全拆解

昇腾CANN架构解析:从模型到NPU的全栈优化 CANN是昇腾NPU的核心软件栈,相当于GPU生态中的CUDA+cuDNN+TensorRT组合。文章通过汽车引擎的比喻,形象地解释了CANN的五层架构体系:最上层的AscendCL作为统一接口,中间的计算服务层提供现成算子库,核心的图引擎(GE)负责计算图优化,Runtime执行层管理硬件资源,底层驱动完成芯片交互。作者以PyTorch模型在NPU

文章图片
#算法#数据结构
CANN到底是什么?昇腾NPU上的“操作系统+发动机调校师“全拆解

昇腾CANN架构解析:从模型到NPU的全栈优化 CANN是昇腾NPU的核心软件栈,相当于GPU生态中的CUDA+cuDNN+TensorRT组合。文章通过汽车引擎的比喻,形象地解释了CANN的五层架构体系:最上层的AscendCL作为统一接口,中间的计算服务层提供现成算子库,核心的图引擎(GE)负责计算图优化,Runtime执行层管理硬件资源,底层驱动完成芯片交互。作者以PyTorch模型在NPU

文章图片
#算法#数据结构
CANN到底是什么?昇腾NPU上的“操作系统+发动机调校师“全拆解

昇腾CANN架构解析:从模型到NPU的全栈优化 CANN是昇腾NPU的核心软件栈,相当于GPU生态中的CUDA+cuDNN+TensorRT组合。文章通过汽车引擎的比喻,形象地解释了CANN的五层架构体系:最上层的AscendCL作为统一接口,中间的计算服务层提供现成算子库,核心的图引擎(GE)负责计算图优化,Runtime执行层管理硬件资源,底层驱动完成芯片交互。作者以PyTorch模型在NPU

文章图片
#算法#数据结构
大模型推理卡在哪?FlashAttention算子在昇腾NPU上的实现拆解

《大模型推理瓶颈与FlashAttention在昇腾NPU上的优化实现》 摘要:大模型推理的核心瓶颈在于Self-Attention计算过程中产生的巨大中间矩阵(如seq_len=8192时可达32GB显存占用)。FlashAttention通过将计算流程保留在片上SRAM避免HBM频繁读写,其昇腾NPU实现具有三大特性:1)利用1.5MB的UnifiedBuffer实现更大分块;2)CubeUn

文章图片
#python#算法#数据结构
大模型推理卡在哪?FlashAttention算子在昇腾NPU上的实现拆解

《大模型推理瓶颈与FlashAttention在昇腾NPU上的优化实现》 摘要:大模型推理的核心瓶颈在于Self-Attention计算过程中产生的巨大中间矩阵(如seq_len=8192时可达32GB显存占用)。FlashAttention通过将计算流程保留在片上SRAM避免HBM频繁读写,其昇腾NPU实现具有三大特性:1)利用1.5MB的UnifiedBuffer实现更大分块;2)CubeUn

文章图片
#python#算法#数据结构
大模型推理卡在哪?FlashAttention算子在昇腾NPU上的实现拆解

《大模型推理瓶颈与FlashAttention在昇腾NPU上的优化实现》 摘要:大模型推理的核心瓶颈在于Self-Attention计算过程中产生的巨大中间矩阵(如seq_len=8192时可达32GB显存占用)。FlashAttention通过将计算流程保留在片上SRAM避免HBM频繁读写,其昇腾NPU实现具有三大特性:1)利用1.5MB的UnifiedBuffer实现更大分块;2)CubeUn

文章图片
#python#算法#数据结构
PyTorch 模型迁移到昇腾 NPU?先看完这篇避坑指南再动手

本文总结了PyTorch模型迁移到昇腾NPU的常见问题和解决方案。关键点包括:1)环境依赖检查,确保驱动版本匹配;2)处理NPU不支持的算子;3)动态shape的适配方法;4)混合精度训练的特殊处理;5)多卡训练时HCCL替代NCCL;6)模型转换后的精度验证。迁移建议遵循"先跑通再优化"原则,重点关注版本匹配、梯度裁剪和多卡配置等核心环节。文章提供了详细的检查清单和相关资源链

文章图片
#pytorch#人工智能#python
    共 11 条
  • 1
  • 2
  • 请选择