logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

十分钟在 openEuler 上搭建本地 AI 服务:LocalAI 快速部署教程

本文介绍了在openEuler 25.09系统上使用Docker快速部署LocalAI本地推理环境的方法。LocalAI是一个兼容OpenAI API的开源推理引擎,支持多种模型格式。文章详细说明了从安装Docker、配置镜像加速到下载Llama-2-7B-Chat模型并启动服务的完整流程,重点解决了模型路径配置等常见问题。通过openEuler系统对容器技术的优化,模型加载速度可提升15-20%

文章图片
#人工智能
openEuler多核算力深度评测:4核4.6倍加速比背后的调度优化

本文全面验证了openEuler在多核并行计算场景下的卓越表现。测试数据表明,openEuler 25.09的多核调度算法非常高效,在4核环境下能够实现超过4倍的线性加速比(sysbench测试达到4.61x),CPU核心利用率均衡,没有明显的调度瓶颈

文章图片
#服务器#大数据
Catlass模板库:CANN开源仓编程实践与原生框架效率对比

摘要:本文深入解析昇腾CANN开源仓中Catlass模板库的设计原理与实战应用。该库采用五层分层架构(Device/Kernel/Block/Tile/Basic)实现硬件适配与组件化开发,重点剖析GroupGEMM多矩阵批量乘和QuantGEMM量化矩阵乘的实现方案。实测数据显示,Catlass算子平均性能达torch_npu的103.7%,硬件利用率超90%。文章提供从环境搭建到算子部署的完整

文章图片
#开源
Catlass模板库:CANN开源仓编程实践与原生框架效率对比

摘要:本文深入解析昇腾CANN开源仓中Catlass模板库的设计原理与实战应用。该库采用五层分层架构(Device/Kernel/Block/Tile/Basic)实现硬件适配与组件化开发,重点剖析GroupGEMM多矩阵批量乘和QuantGEMM量化矩阵乘的实现方案。实测数据显示,Catlass算子平均性能达torch_npu的103.7%,硬件利用率超90%。文章提供从环境搭建到算子部署的完整

文章图片
#开源
Catlass模板库:CANN开源仓编程实践与原生框架效率对比

摘要:本文深入解析昇腾CANN开源仓中Catlass模板库的设计原理与实战应用。该库采用五层分层架构(Device/Kernel/Block/Tile/Basic)实现硬件适配与组件化开发,重点剖析GroupGEMM多矩阵批量乘和QuantGEMM量化矩阵乘的实现方案。实测数据显示,Catlass算子平均性能达torch_npu的103.7%,硬件利用率超90%。文章提供从环境搭建到算子部署的完整

文章图片
#开源
CANN开源仓Catlass横模库适配自定义模型踩坑录

Catlass实际架构包括:Device层屏蔽Host调用差异,Kernel层实现并行逻辑(如AICore上BlockTileM/BlockTileN循环),Block层封装BlockMmad(矩阵乘累加)、BlockEpilogue(后处理)等组件,Tile层支持灵活分片设置,Basic层对接昇腾硬件指令(如AscendC::Mmad):GroupGEMM的精髓在于“一次内核启动处理所有矩阵组”

文章图片
#开源
CANN开源仓Catlass横模库适配自定义模型踩坑录

Catlass实际架构包括:Device层屏蔽Host调用差异,Kernel层实现并行逻辑(如AICore上BlockTileM/BlockTileN循环),Block层封装BlockMmad(矩阵乘累加)、BlockEpilogue(后处理)等组件,Tile层支持灵活分片设置,Basic层对接昇腾硬件指令(如AscendC::Mmad):GroupGEMM的精髓在于“一次内核启动处理所有矩阵组”

文章图片
#开源
CANN开源仓Catlass横模库适配自定义模型踩坑录

Catlass实际架构包括:Device层屏蔽Host调用差异,Kernel层实现并行逻辑(如AICore上BlockTileM/BlockTileN循环),Block层封装BlockMmad(矩阵乘累加)、BlockEpilogue(后处理)等组件,Tile层支持灵活分片设置,Basic层对接昇腾硬件指令(如AscendC::Mmad):GroupGEMM的精髓在于“一次内核启动处理所有矩阵组”

文章图片
#开源
CANN开源仓Catlass横模库适配自定义模型踩坑录

Catlass实际架构包括:Device层屏蔽Host调用差异,Kernel层实现并行逻辑(如AICore上BlockTileM/BlockTileN循环),Block层封装BlockMmad(矩阵乘累加)、BlockEpilogue(后处理)等组件,Tile层支持灵活分片设置,Basic层对接昇腾硬件指令(如AscendC::Mmad):GroupGEMM的精髓在于“一次内核启动处理所有矩阵组”

文章图片
#开源
openEuler多核算力深度评测:4核4.6倍加速比背后的调度优化

本文全面验证了openEuler在多核并行计算场景下的卓越表现。测试数据表明,openEuler 25.09的多核调度算法非常高效,在4核环境下能够实现超过4倍的线性加速比(sysbench测试达到4.61x),CPU核心利用率均衡,没有明显的调度瓶颈

文章图片
#服务器#大数据
    共 16 条
  • 1
  • 2
  • 请选择