logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Catlass模板库:CANN开源仓编程实践与原生框架效率对比

本文深度解析昇腾CANN开源仓架构设计与核心能力,分享13年异构计算实战经验。内容涵盖CANN分层架构、AscendC核函数开发、性能优化方法论,提供完整编译部署指南与故障排查方案。关键亮点包括:1)软硬协同的CANN中枢架构解析;2)SPMD并行编程实战案例;3)内存对齐/算子融合等性能调优技巧;4)msprof工具链深度使用方法。通过实测数据展示GroupGEMM算子性能提升23.5%的优化过

文章图片
#开源#昇腾
昇腾 CANN 开源仓实战指南:本地编译调试踩坑与性能优化全解析

Catlass实际架构包括:Device层屏蔽Host调用差异,Kernel层实现并行逻辑(如AICore上BlockTileM/BlockTileN循环),Block层封装BlockMmad(矩阵乘累加)、BlockEpilogue(后处理)等组件,Tile层支持灵活分片设置,Basic层对接昇腾硬件指令(如AscendC::Mmad):GroupGEMM的精髓在于“一次内核启动处理所有矩阵组”

文章图片
#开源#昇腾
【数据结构】LRUCache|并查集

LRU是Least Recently Used的缩写,意思是最近最少使用,它是一种Cache替换算法。狭义的Cache指的是位于CPU和主存间的快速RAM, 通常它不像系统主存那样使用DRAM技术,而使用昂贵但较快速的SRAM技术。广义上的Cache指的是位于速度相差较大的两种硬件之间, 用于协调两者数据传输速度差异的结构。除了CPU与主存之间有Cache, 内存与硬盘之间也有Cache,乃至在硬

文章图片
#数据结构
Catlass模板库:CANN开源仓编程实践与原生框架效率对比

本文深度解析昇腾CANN开源仓架构设计与核心能力,分享13年异构计算实战经验。内容涵盖CANN分层架构、AscendC核函数开发、性能优化方法论,提供完整编译部署指南与故障排查方案。关键亮点包括:1)软硬协同的CANN中枢架构解析;2)SPMD并行编程实战案例;3)内存对齐/算子融合等性能调优技巧;4)msprof工具链深度使用方法。通过实测数据展示GroupGEMM算子性能提升23.5%的优化过

文章图片
#开源#昇腾
Catlass模板库:CANN开源仓编程实践与原生框架效率对比

本文深度解析昇腾CANN开源仓架构设计与核心能力,分享13年异构计算实战经验。内容涵盖CANN分层架构、AscendC核函数开发、性能优化方法论,提供完整编译部署指南与故障排查方案。关键亮点包括:1)软硬协同的CANN中枢架构解析;2)SPMD并行编程实战案例;3)内存对齐/算子融合等性能调优技巧;4)msprof工具链深度使用方法。通过实测数据展示GroupGEMM算子性能提升23.5%的优化过

文章图片
#开源#昇腾
Catlass模板库:CANN开源仓编程实践与原生框架效率对比

本文深度解析昇腾CANN开源仓架构设计与核心能力,分享13年异构计算实战经验。内容涵盖CANN分层架构、AscendC核函数开发、性能优化方法论,提供完整编译部署指南与故障排查方案。关键亮点包括:1)软硬协同的CANN中枢架构解析;2)SPMD并行编程实战案例;3)内存对齐/算子融合等性能调优技巧;4)msprof工具链深度使用方法。通过实测数据展示GroupGEMM算子性能提升23.5%的优化过

文章图片
#开源#昇腾
Catlass模板库:CANN开源仓编程实践与原生框架效率对比

本文深度解析昇腾CANN开源仓架构设计与核心能力,分享13年异构计算实战经验。内容涵盖CANN分层架构、AscendC核函数开发、性能优化方法论,提供完整编译部署指南与故障排查方案。关键亮点包括:1)软硬协同的CANN中枢架构解析;2)SPMD并行编程实战案例;3)内存对齐/算子融合等性能调优技巧;4)msprof工具链深度使用方法。通过实测数据展示GroupGEMM算子性能提升23.5%的优化过

文章图片
#开源#昇腾
昇腾 CANN 开源仓实战指南:本地编译调试踩坑与性能优化全解析

Catlass实际架构包括:Device层屏蔽Host调用差异,Kernel层实现并行逻辑(如AICore上BlockTileM/BlockTileN循环),Block层封装BlockMmad(矩阵乘累加)、BlockEpilogue(后处理)等组件,Tile层支持灵活分片设置,Basic层对接昇腾硬件指令(如AscendC::Mmad):GroupGEMM的精髓在于“一次内核启动处理所有矩阵组”

文章图片
#开源#昇腾
昇腾 CANN 开源仓实战指南:本地编译调试踩坑与性能优化全解析

Catlass实际架构包括:Device层屏蔽Host调用差异,Kernel层实现并行逻辑(如AICore上BlockTileM/BlockTileN循环),Block层封装BlockMmad(矩阵乘累加)、BlockEpilogue(后处理)等组件,Tile层支持灵活分片设置,Basic层对接昇腾硬件指令(如AscendC::Mmad):GroupGEMM的精髓在于“一次内核启动处理所有矩阵组”

文章图片
#开源#昇腾
昇腾 CANN 开源仓实战指南:本地编译调试踩坑与性能优化全解析

Catlass实际架构包括:Device层屏蔽Host调用差异,Kernel层实现并行逻辑(如AICore上BlockTileM/BlockTileN循环),Block层封装BlockMmad(矩阵乘累加)、BlockEpilogue(后处理)等组件,Tile层支持灵活分片设置,Basic层对接昇腾硬件指令(如AscendC::Mmad):GroupGEMM的精髓在于“一次内核启动处理所有矩阵组”

文章图片
#开源#昇腾
    共 13 条
  • 1
  • 2
  • 请选择