logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

构建高效Transformer模型:ops-transformer算子使用手册

随着大语言模型(LLM)和多模态AI系统的广泛应用,**Transformer架构**已成为现代AI应用的核心。然而,标准实现往往难以在实际硬件上发挥最佳性能——频繁的内核启动、冗余的内存读写、未优化的Attention计算,都会导致吞吐下降与延迟升高。

文章图片
#transformer#深度学习#人工智能 +1
开发者指南:如何在自定义算子中集成ops-math接口

在深度学习和高性能计算领域,数学运算是所有复杂算法的基础。CANN(Compute Architecture for Neural Networks)作为面向AI场景的异构计算架构,其`ops-math`算子库提供了丰富、高效的基础数学运算接口,是构建高性能AI应用的基石。

文章图片
#开源#CANN
开发者指南:如何在自定义算子中集成ops-math接口

在深度学习和高性能计算领域,数学运算是所有复杂算法的基础。CANN(Compute Architecture for Neural Networks)作为面向AI场景的异构计算架构,其`ops-math`算子库提供了丰富、高效的基础数学运算接口,是构建高性能AI应用的基石。

文章图片
#开源#CANN
以前写项目文档熬3天,现在飞算JavaAI半小时出12章节的规范文档

飞算JavaAI专业版推出"项目文档生成器"功能,只需一键运行即可将源码自动转化为12章节规范文档,大幅提升开发效率。该工具通过深度代码分析生成符合工程规范的交付级文档,包含接口说明、表结构、部署配置等细节,比手动编写更全面准确。每月仅需9.9元,可节省3天文档编写时间,帮助开发者专注核心代码开发。目前开放试用并推出优惠活动。

文章图片
openEuler多核算力深度评测:4核4.6倍加速比背后的调度优化

本文全面验证了openEuler在多核并行计算场景下的卓越表现。测试数据表明,openEuler 25.09的多核调度算法非常高效,在4核环境下能够实现超过4倍的线性加速比(sysbench测试达到4.61x),CPU核心利用率均衡,没有明显的调度瓶颈

文章图片
#服务器#大数据
Catlass模板库:CANN开源仓编程实践与原生框架效率对比

本文深度解析昇腾CANN开源仓架构设计与核心能力,分享13年异构计算实战经验。内容涵盖CANN分层架构、AscendC核函数开发、性能优化方法论,提供完整编译部署指南与故障排查方案。关键亮点包括:1)软硬协同的CANN中枢架构解析;2)SPMD并行编程实战案例;3)内存对齐/算子融合等性能调优技巧;4)msprof工具链深度使用方法。通过实测数据展示GroupGEMM算子性能提升23.5%的优化过

文章图片
#开源
昇腾 CANN 开源仓实战指南:本地编译调试踩坑与性能优化全解析

Catlass实际架构包括:Device层屏蔽Host调用差异,Kernel层实现并行逻辑(如AICore上BlockTileM/BlockTileN循环),Block层封装BlockMmad(矩阵乘累加)、BlockEpilogue(后处理)等组件,Tile层支持灵活分片设置,Basic层对接昇腾硬件指令(如AscendC::Mmad):GroupGEMM的精髓在于“一次内核启动处理所有矩阵组”

文章图片
#开源
openEuler多核算力深度评测:4核4.6倍加速比背后的调度优化

本文全面验证了openEuler在多核并行计算场景下的卓越表现。测试数据表明,openEuler 25.09的多核调度算法非常高效,在4核环境下能够实现超过4倍的线性加速比(sysbench测试达到4.61x),CPU核心利用率均衡,没有明显的调度瓶颈

文章图片
#服务器#大数据
用 Perplexica 搜信息太爽了!加上cpolar突破局域网后,在哪都能用

Perplexica是一款开源AI搜索引擎,能深入挖掘网络信息并整理成简洁报告,支持自定义标签和多种搜索模式。通过Docker可快速部署,使用cpolar解决局域网限制后,可实现远程访问。它提供多种搜索资源选择,需配置模型设置后即可使用。cpolar还能配置固定二级子域名,方便长期稳定访问。Perplexica显著提升信息检索效率,适合各类查询需求。

文章图片
#服务器#数据库
十分钟在 openEuler 上搭建本地 AI 服务:LocalAI 快速部署教程

本文介绍了在openEuler 25.09系统上使用Docker快速部署LocalAI本地推理环境的方法。LocalAI是一个兼容OpenAI API的开源推理引擎,支持多种模型格式。文章详细说明了从安装Docker、配置镜像加速到下载Llama-2-7B-Chat模型并启动服务的完整流程,重点解决了模型路径配置等常见问题。通过openEuler系统对容器技术的优化,模型加载速度可提升15-20%

文章图片
#人工智能
    共 11 条
  • 1
  • 2
  • 请选择