logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

昇腾 CANN ops-blas GEMM 性能调优:分块与向量化的深度实践

本文深入探讨了深度学习中的矩阵乘法(GEMM)优化技术,重点分析了昇腾NPU的计算架构和分块策略。文章首先介绍了GEMM在深度学习中的核心作用,包括全连接层、批量矩阵乘法和分组卷积等典型应用场景。随后详细解析了昇腾NPU的Cube和Vector双计算单元特性,其中Cube单元专为大矩阵乘法优化,采用3D Tensor Core架构。文章重点阐述了三维分块策略(M/N/K方向),通过将大矩阵切分为适

文章图片
#性能优化
昇腾 CANN ops-blas GEMM 性能调优:分块与向量化的深度实践

本文深入探讨了深度学习中的矩阵乘法(GEMM)优化技术,重点分析了昇腾NPU的计算架构和分块策略。文章首先介绍了GEMM在深度学习中的核心作用,包括全连接层、批量矩阵乘法和分组卷积等典型应用场景。随后详细解析了昇腾NPU的Cube和Vector双计算单元特性,其中Cube单元专为大矩阵乘法优化,采用3D Tensor Core架构。文章重点阐述了三维分块策略(M/N/K方向),通过将大矩阵切分为适

文章图片
#性能优化
昇腾 CANN ops-blas GEMM 性能调优:分块与向量化的深度实践

本文深入探讨了深度学习中的矩阵乘法(GEMM)优化技术,重点分析了昇腾NPU的计算架构和分块策略。文章首先介绍了GEMM在深度学习中的核心作用,包括全连接层、批量矩阵乘法和分组卷积等典型应用场景。随后详细解析了昇腾NPU的Cube和Vector双计算单元特性,其中Cube单元专为大矩阵乘法优化,采用3D Tensor Core架构。文章重点阐述了三维分块策略(M/N/K方向),通过将大矩阵切分为适

文章图片
#性能优化
昇腾 CANN GE 图编译器:理解从计算图到硬件指令的全流程

摘要 本文深入解析了华为CANN架构中的图引擎(GE)工作原理,重点介绍了GE如何将PyTorch/MindSpore模型转换为NPU可执行指令。GE作为CANN的核心组件,主要完成四个关键任务:图解析、图优化、调度生成和指令发射。文章详细阐述了计算图中间表示(IR)的构建方式,包括算子节点和依赖关系的定义。特别强调了图优化Pass的重要性,通过常量折叠和算子融合等优化技术,将多个小算子合并为高效

文章图片
#昇腾
昇腾 CANN GE 图编译器:理解从计算图到硬件指令的全流程

摘要 本文深入解析了华为CANN架构中的图引擎(GE)工作原理,重点介绍了GE如何将PyTorch/MindSpore模型转换为NPU可执行指令。GE作为CANN的核心组件,主要完成四个关键任务:图解析、图优化、调度生成和指令发射。文章详细阐述了计算图中间表示(IR)的构建方式,包括算子节点和依赖关系的定义。特别强调了图优化Pass的重要性,通过常量折叠和算子融合等优化技术,将多个小算子合并为高效

文章图片
#昇腾
昇腾 CANN GE 图编译器:理解从计算图到硬件指令的全流程

摘要 本文深入解析了华为CANN架构中的图引擎(GE)工作原理,重点介绍了GE如何将PyTorch/MindSpore模型转换为NPU可执行指令。GE作为CANN的核心组件,主要完成四个关键任务:图解析、图优化、调度生成和指令发射。文章详细阐述了计算图中间表示(IR)的构建方式,包括算子节点和依赖关系的定义。特别强调了图优化Pass的重要性,通过常量折叠和算子融合等优化技术,将多个小算子合并为高效

文章图片
#昇腾
昇腾 CANN driver 层架构:软硬件接口的深度解析

昇腾NPU驱动层架构解析与核心功能 摘要:本文深入剖析了昇腾NPU驱动层的架构设计与核心功能。驱动层作为硬件与软件间的桥梁,承担内存管理、命令调度、中断处理和错误处理等关键职责。文章对比了传统GPU与昇腾NPU的驱动差异,详细介绍了CANN驱动的分层架构(包括应用层、运行时层、集合通信层、驱动层和固件层),并展示了驱动核心API的使用示例,涵盖设备管理、内存管理、命令队列和错误处理等关键功能。特别

文章图片
#架构#昇腾
昇腾 CANN driver 层架构:软硬件接口的深度解析

昇腾NPU驱动层架构解析与核心功能 摘要:本文深入剖析了昇腾NPU驱动层的架构设计与核心功能。驱动层作为硬件与软件间的桥梁,承担内存管理、命令调度、中断处理和错误处理等关键职责。文章对比了传统GPU与昇腾NPU的驱动差异,详细介绍了CANN驱动的分层架构(包括应用层、运行时层、集合通信层、驱动层和固件层),并展示了驱动核心API的使用示例,涵盖设备管理、内存管理、命令队列和错误处理等关键功能。特别

文章图片
#架构#昇腾
昇腾 CANN cann-samples 仓:从 HelloWorld 到 ResNet50 推理

本文介绍了如何使用昇腾官方示例库cann-samples实现ResNet50模型推理的全流程。首先展示了cann-samples仓库的结构,包含基础示例、计算机视觉、自然语言处理等模块。然后通过HelloWorld示例演示了ACL初始化和基本算子调用方法。重点讲解了ResNet50端到端推理的实现,包括图像预处理、模型加载、推理执行和后处理过程。文章还提供了批量推理和性能调优的代码示例,展示了如何

文章图片
#人工智能
昇腾 CANN cann-samples 仓:从 HelloWorld 到 ResNet50 推理

本文介绍了如何使用昇腾官方示例库cann-samples实现ResNet50模型推理的全流程。首先展示了cann-samples仓库的结构,包含基础示例、计算机视觉、自然语言处理等模块。然后通过HelloWorld示例演示了ACL初始化和基本算子调用方法。重点讲解了ResNet50端到端推理的实现,包括图像预处理、模型加载、推理执行和后处理过程。文章还提供了批量推理和性能调优的代码示例,展示了如何

文章图片
#人工智能
    共 122 条
  • 1
  • 2
  • 3
  • 13
  • 请选择