
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文介绍了在openEuler 25.09系统上使用Docker快速部署LocalAI本地推理环境的方法。LocalAI是一个兼容OpenAI API的开源推理引擎,支持多种模型格式。文章详细说明了从安装Docker、配置镜像加速到下载Llama-2-7B-Chat模型并启动服务的完整流程,重点解决了模型路径配置等常见问题。通过openEuler系统对容器技术的优化,模型加载速度可提升15-20%

本文全面验证了openEuler在多核并行计算场景下的卓越表现。测试数据表明,openEuler 25.09的多核调度算法非常高效,在4核环境下能够实现超过4倍的线性加速比(sysbench测试达到4.61x),CPU核心利用率均衡,没有明显的调度瓶颈

摘要:本文深入解析昇腾CANN开源仓中Catlass模板库的设计原理与实战应用。该库采用五层分层架构(Device/Kernel/Block/Tile/Basic)实现硬件适配与组件化开发,重点剖析GroupGEMM多矩阵批量乘和QuantGEMM量化矩阵乘的实现方案。实测数据显示,Catlass算子平均性能达torch_npu的103.7%,硬件利用率超90%。文章提供从环境搭建到算子部署的完整

摘要:本文深入解析昇腾CANN开源仓中Catlass模板库的设计原理与实战应用。该库采用五层分层架构(Device/Kernel/Block/Tile/Basic)实现硬件适配与组件化开发,重点剖析GroupGEMM多矩阵批量乘和QuantGEMM量化矩阵乘的实现方案。实测数据显示,Catlass算子平均性能达torch_npu的103.7%,硬件利用率超90%。文章提供从环境搭建到算子部署的完整

摘要:本文深入解析昇腾CANN开源仓中Catlass模板库的设计原理与实战应用。该库采用五层分层架构(Device/Kernel/Block/Tile/Basic)实现硬件适配与组件化开发,重点剖析GroupGEMM多矩阵批量乘和QuantGEMM量化矩阵乘的实现方案。实测数据显示,Catlass算子平均性能达torch_npu的103.7%,硬件利用率超90%。文章提供从环境搭建到算子部署的完整

Catlass实际架构包括:Device层屏蔽Host调用差异,Kernel层实现并行逻辑(如AICore上BlockTileM/BlockTileN循环),Block层封装BlockMmad(矩阵乘累加)、BlockEpilogue(后处理)等组件,Tile层支持灵活分片设置,Basic层对接昇腾硬件指令(如AscendC::Mmad):GroupGEMM的精髓在于“一次内核启动处理所有矩阵组”

Catlass实际架构包括:Device层屏蔽Host调用差异,Kernel层实现并行逻辑(如AICore上BlockTileM/BlockTileN循环),Block层封装BlockMmad(矩阵乘累加)、BlockEpilogue(后处理)等组件,Tile层支持灵活分片设置,Basic层对接昇腾硬件指令(如AscendC::Mmad):GroupGEMM的精髓在于“一次内核启动处理所有矩阵组”

Catlass实际架构包括:Device层屏蔽Host调用差异,Kernel层实现并行逻辑(如AICore上BlockTileM/BlockTileN循环),Block层封装BlockMmad(矩阵乘累加)、BlockEpilogue(后处理)等组件,Tile层支持灵活分片设置,Basic层对接昇腾硬件指令(如AscendC::Mmad):GroupGEMM的精髓在于“一次内核启动处理所有矩阵组”

Catlass实际架构包括:Device层屏蔽Host调用差异,Kernel层实现并行逻辑(如AICore上BlockTileM/BlockTileN循环),Block层封装BlockMmad(矩阵乘累加)、BlockEpilogue(后处理)等组件,Tile层支持灵活分片设置,Basic层对接昇腾硬件指令(如AscendC::Mmad):GroupGEMM的精髓在于“一次内核启动处理所有矩阵组”

本文全面验证了openEuler在多核并行计算场景下的卓越表现。测试数据表明,openEuler 25.09的多核调度算法非常高效,在4核环境下能够实现超过4倍的线性加速比(sysbench测试达到4.61x),CPU核心利用率均衡,没有明显的调度瓶颈








