
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
Catlass 模板库通过“分层架构+组件复用”,解决了昇腾算子开发“门槛高、效率低、性能难优化”的痛点。未来,随着昇腾 AI 处理器迭代,Catlass 将进一步支持稀疏计算、动态 Shape 等场景,成为 AI 原生开发的核心基础设施。CANN 与 Catlass 关系:图:CANN AI架构计算架构图CANN AI架构计算架构图展示其分层结构:上层为深度学习框架适配、创新算子与库、AI应用;

Catlass 模板库通过“分层架构+组件复用”,解决了昇腾算子开发“门槛高、效率低、性能难优化”的痛点。未来,随着昇腾 AI 处理器迭代,Catlass 将进一步支持稀疏计算、动态 Shape 等场景,成为 AI 原生开发的核心基础设施。CANN 与 Catlass 关系:图:CANN AI架构计算架构图CANN AI架构计算架构图展示其分层结构:上层为深度学习框架适配、创新算子与库、AI应用;

Catlass 模板库通过“分层架构+组件复用”,解决了昇腾算子开发“门槛高、效率低、性能难优化”的痛点。未来,随着昇腾 AI 处理器迭代,Catlass 将进一步支持稀疏计算、动态 Shape 等场景,成为 AI 原生开发的核心基础设施。CANN 与 Catlass 关系:图:CANN AI架构计算架构图CANN AI架构计算架构图展示其分层结构:上层为深度学习框架适配、创新算子与库、AI应用;

Catlass 模板库通过“分层架构+组件复用”,解决了昇腾算子开发“门槛高、效率低、性能难优化”的痛点。未来,随着昇腾 AI 处理器迭代,Catlass 将进一步支持稀疏计算、动态 Shape 等场景,成为 AI 原生开发的核心基础设施。CANN 与 Catlass 关系:图:CANN AI架构计算架构图CANN AI架构计算架构图展示其分层结构:上层为深度学习框架适配、创新算子与库、AI应用;

背景:某客户船脸识别模型含120个小矩阵乘(多头注意力),GPU上性能达标,昇腾NPU迁移后性能下降40%。问题分析:通过msprof定位到“内核启动开销占比52%”(小矩阵乘单次计算量小,频繁启动内核)。解决方案:用Catlass GroupGEMM替换循环调用GEMM,复用BlockMmad组件,一次内核处理所有小矩阵。效果:内核启动开销降至5%,整体性能提升38%(数据来源:客户验收报告)。

单源最短路径--Bellman-Ford算法(可处理带负权路径的图)

C语言关键字static的介绍,static修饰局部变量,static修饰全局变量,static修饰函数
认识什么是数据结构和算法,详解时间复杂度,空间复杂度及例题练习

哈希表详解:从认识哈希到两种方法(开放定址法+拉链法)实现哈希表,一篇文章带你搞定

快速幂算法详解








