logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Catlass模板库:CANN开源仓编程实践与原生框架效率对比

本文深度解析昇腾CANN开源仓架构设计与核心能力,分享13年异构计算实战经验。内容涵盖CANN分层架构、AscendC核函数开发、性能优化方法论,提供完整编译部署指南与故障排查方案。关键亮点包括:1)软硬协同的CANN中枢架构解析;2)SPMD并行编程实战案例;3)内存对齐/算子融合等性能调优技巧;4)msprof工具链深度使用方法。通过实测数据展示GroupGEMM算子性能提升23.5%的优化过

文章图片
#开源#昇腾
昇腾 CANN 开源仓实战指南:本地编译调试踩坑与性能优化全解析

Catlass实际架构包括:Device层屏蔽Host调用差异,Kernel层实现并行逻辑(如AICore上BlockTileM/BlockTileN循环),Block层封装BlockMmad(矩阵乘累加)、BlockEpilogue(后处理)等组件,Tile层支持灵活分片设置,Basic层对接昇腾硬件指令(如AscendC::Mmad):GroupGEMM的精髓在于“一次内核启动处理所有矩阵组”

文章图片
#开源#昇腾
【数据结构】LRUCache|并查集

LRU是Least Recently Used的缩写,意思是最近最少使用,它是一种Cache替换算法。狭义的Cache指的是位于CPU和主存间的快速RAM, 通常它不像系统主存那样使用DRAM技术,而使用昂贵但较快速的SRAM技术。广义上的Cache指的是位于速度相差较大的两种硬件之间, 用于协调两者数据传输速度差异的结构。除了CPU与主存之间有Cache, 内存与硬盘之间也有Cache,乃至在硬

文章图片
#数据结构
昇腾 CANN 开源仓实战指南:本地编译调试踩坑与性能优化全解析

Catlass实际架构包括:Device层屏蔽Host调用差异,Kernel层实现并行逻辑(如AICore上BlockTileM/BlockTileN循环),Block层封装BlockMmad(矩阵乘累加)、BlockEpilogue(后处理)等组件,Tile层支持灵活分片设置,Basic层对接昇腾硬件指令(如AscendC::Mmad):GroupGEMM的精髓在于“一次内核启动处理所有矩阵组”

文章图片
#开源#昇腾
昇腾 CANN 开源仓实战指南:本地编译调试踩坑与性能优化全解析

Catlass实际架构包括:Device层屏蔽Host调用差异,Kernel层实现并行逻辑(如AICore上BlockTileM/BlockTileN循环),Block层封装BlockMmad(矩阵乘累加)、BlockEpilogue(后处理)等组件,Tile层支持灵活分片设置,Basic层对接昇腾硬件指令(如AscendC::Mmad):GroupGEMM的精髓在于“一次内核启动处理所有矩阵组”

文章图片
#开源#昇腾
昇腾 CANN 开源仓实战指南:本地编译调试踩坑与性能优化全解析

Catlass实际架构包括:Device层屏蔽Host调用差异,Kernel层实现并行逻辑(如AICore上BlockTileM/BlockTileN循环),Block层封装BlockMmad(矩阵乘累加)、BlockEpilogue(后处理)等组件,Tile层支持灵活分片设置,Basic层对接昇腾硬件指令(如AscendC::Mmad):GroupGEMM的精髓在于“一次内核启动处理所有矩阵组”

文章图片
#开源#昇腾
昇腾 CANN 开源仓实战指南:本地编译调试踩坑与性能优化全解析

Catlass实际架构包括:Device层屏蔽Host调用差异,Kernel层实现并行逻辑(如AICore上BlockTileM/BlockTileN循环),Block层封装BlockMmad(矩阵乘累加)、BlockEpilogue(后处理)等组件,Tile层支持灵活分片设置,Basic层对接昇腾硬件指令(如AscendC::Mmad):GroupGEMM的精髓在于“一次内核启动处理所有矩阵组”

文章图片
#开源#昇腾
以前写项目文档熬3天,现在飞算JavaAI半小时出12章节的规范文档

飞算JavaAI专业版推出"项目文档生成器"功能,只需一键运行即可将源码自动转化为12章节规范文档,大幅提升开发效率。该工具通过深度代码分析生成符合工程规范的交付级文档,包含接口说明、表结构、部署配置等细节,比手动编写更全面准确。每月仅需9.9元,可节省3天文档编写时间,帮助开发者专注核心代码开发。目前开放试用并推出优惠活动。

文章图片
十分钟在 openEuler 上搭建本地 AI 服务:LocalAI 快速部署教程

本文介绍了在openEuler 25.09系统上使用Docker快速部署LocalAI本地推理环境的方法。LocalAI是一个兼容OpenAI API的开源推理引擎,支持多种模型格式。文章详细说明了从安装Docker、配置镜像加速到下载Llama-2-7B-Chat模型并启动服务的完整流程,重点解决了模型路径配置等常见问题。通过openEuler系统对容器技术的优化,模型加载速度可提升15-20%

文章图片
#人工智能
到底了