特比丘个人主页

@2501_94570397

特比丘

2025-12-18 17:06:03 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

GE图引擎：昇腾NPU上的“流水线调度员“到底在干什么

图引擎（GE）是昇腾NPU架构中的关键优化层，负责将动态图转换为静态计算图并进行深度优化。其核心工作包括：1）构建计算图；2）算子融合（如合并Conv+BN+ReLU）；3）内存优化（显存复用和重计算）；4）数据排布优化；5）执行调度。通过全局视角的优化，GE能显著减少显存读写次数，提升计算密度。若NPU性能未达预期，可能因动态shape、自定义算子或CANN版本过老导致优化失效。开发者可通过日志

#算法 #数据结构

GE图引擎：昇腾NPU上的“流水线调度员“到底在干什么

#算法 #数据结构

CANN到底是什么？昇腾NPU上的“操作系统+发动机调校师“全拆解

昇腾CANN架构解析：从模型到NPU的全栈优化 CANN是昇腾NPU的核心软件栈，相当于GPU生态中的CUDA+cuDNN+TensorRT组合。文章通过汽车引擎的比喻，形象地解释了CANN的五层架构体系：最上层的AscendCL作为统一接口，中间的计算服务层提供现成算子库，核心的图引擎(GE)负责计算图优化，Runtime执行层管理硬件资源，底层驱动完成芯片交互。作者以PyTorch模型在NPU

#算法 #数据结构

CANN到底是什么？昇腾NPU上的“操作系统+发动机调校师“全拆解

#算法 #数据结构

CANN到底是什么？昇腾NPU上的“操作系统+发动机调校师“全拆解

#算法 #数据结构

CANN到底是什么？昇腾NPU上的“操作系统+发动机调校师“全拆解

#算法 #数据结构

大模型推理卡在哪？FlashAttention算子在昇腾NPU上的实现拆解

《大模型推理瓶颈与FlashAttention在昇腾NPU上的优化实现》摘要：大模型推理的核心瓶颈在于Self-Attention计算过程中产生的巨大中间矩阵（如seq_len=8192时可达32GB显存占用）。FlashAttention通过将计算流程保留在片上SRAM避免HBM频繁读写，其昇腾NPU实现具有三大特性：1）利用1.5MB的UnifiedBuffer实现更大分块；2）CubeUn

#python #算法 #数据结构

大模型推理卡在哪？FlashAttention算子在昇腾NPU上的实现拆解

#python #算法 #数据结构

大模型推理卡在哪？FlashAttention算子在昇腾NPU上的实现拆解

#python #算法 #数据结构

PyTorch 模型迁移到昇腾 NPU？先看完这篇避坑指南再动手

本文总结了PyTorch模型迁移到昇腾NPU的常见问题和解决方案。关键点包括：1)环境依赖检查，确保驱动版本匹配；2)处理NPU不支持的算子；3)动态shape的适配方法；4)混合精度训练的特殊处理；5)多卡训练时HCCL替代NCCL；6)模型转换后的精度验证。迁移建议遵循"先跑通再优化"原则，重点关注版本匹配、梯度裁剪和多卡配置等核心环节。文章提供了详细的检查清单和相关资源链

#pytorch #人工智能 #python

共 11 条

请选择