logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

CANN开源仓Catlass模板库核心能力与编程实战

Catlass 模板库通过“分层架构+组件复用”,解决了昇腾算子开发“门槛高、效率低、性能难优化”的痛点。未来,随着昇腾 AI 处理器迭代,Catlass 将进一步支持稀疏计算、动态 Shape 等场景,成为 AI 原生开发的核心基础设施。CANN 与 Catlass 关系:图:CANN AI架构计算架构图CANN AI架构计算架构图展示其分层结构:上层为深度学习框架适配、创新算子与库、AI应用;

文章图片
#开源#java#dubbo +1
CANN开源仓Catlass模板库核心能力与编程实战

Catlass 模板库通过“分层架构+组件复用”,解决了昇腾算子开发“门槛高、效率低、性能难优化”的痛点。未来,随着昇腾 AI 处理器迭代,Catlass 将进一步支持稀疏计算、动态 Shape 等场景,成为 AI 原生开发的核心基础设施。CANN 与 Catlass 关系:图:CANN AI架构计算架构图CANN AI架构计算架构图展示其分层结构:上层为深度学习框架适配、创新算子与库、AI应用;

文章图片
#开源#java#dubbo +1
CANN开源仓Catlass模板库核心能力与编程实战

Catlass 模板库通过“分层架构+组件复用”,解决了昇腾算子开发“门槛高、效率低、性能难优化”的痛点。未来,随着昇腾 AI 处理器迭代,Catlass 将进一步支持稀疏计算、动态 Shape 等场景,成为 AI 原生开发的核心基础设施。CANN 与 Catlass 关系:图:CANN AI架构计算架构图CANN AI架构计算架构图展示其分层结构:上层为深度学习框架适配、创新算子与库、AI应用;

文章图片
#开源#java#dubbo +1
CANN开源仓Catlass模板库核心能力与编程实战

Catlass 模板库通过“分层架构+组件复用”,解决了昇腾算子开发“门槛高、效率低、性能难优化”的痛点。未来,随着昇腾 AI 处理器迭代,Catlass 将进一步支持稀疏计算、动态 Shape 等场景,成为 AI 原生开发的核心基础设施。CANN 与 Catlass 关系:图:CANN AI架构计算架构图CANN AI架构计算架构图展示其分层结构:上层为深度学习框架适配、创新算子与库、AI应用;

文章图片
#开源#java#dubbo +1
CANN开源仓Catlass横模库适配自定义模型踩坑录

背景:某客户船脸识别模型含120个小矩阵乘(多头注意力),GPU上性能达标,昇腾NPU迁移后性能下降40%。问题分析:通过msprof定位到“内核启动开销占比52%”(小矩阵乘单次计算量小,频繁启动内核)。解决方案:用Catlass GroupGEMM替换循环调用GEMM,复用BlockMmad组件,一次内核处理所有小矩阵。效果:内核启动开销降至5%,整体性能提升38%(数据来源:客户验收报告)。

文章图片
#开源#昇腾
图详解第五篇:单源最短路径--贝尔曼-福特(Bellman-Ford)算法

单源最短路径--Bellman-Ford算法(可处理带负权路径的图)

文章图片
#算法#图论
初识C语言——关键字static的作用

C语言关键字static的介绍,static修饰局部变量,static修饰全局变量,static修饰函数

#c语言#c++#开发语言
【初阶数据结构】——时间复杂度和空间复杂度详解(C描述)

认识什么是数据结构和算法,详解时间复杂度,空间复杂度及例题练习

文章图片
#c语言#数据结构#算法 +1
【高阶数据结构】哈希表详解

哈希表详解:从认识哈希到两种方法(开放定址法+拉链法)实现哈希表,一篇文章带你搞定

文章图片
#数据结构#散列表#哈希算法
    共 17 条
  • 1
  • 2
  • 请选择