logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

ops-transformer:AI 处理器上的高性能 Transformer 算子库

自注意力(Self-Attention)机制的引入,使得 Transformer 模型在自然语言处理(NLP)领域掀起了一场革命,并迅速扩展到计算机视觉、语音识别乃至多模态学习等诸多前沿领域。然而,Transformer 模型,尤其是其核心的注意力机制,带来了巨大的计算开销和内存需求。为了在 AI 处理器上高效运行这些模型,一套高度优化的底层算子库变得至关重要。正是 CANN 软件栈中专注于为 T

#人工智能#transformer#深度学习
pyasc:Python赋能异构计算AI,简化模型部署与推理

当内置算子无法满足特定AI算法需求时,pyascPythonic算子注册:虽然底层算子通常用C++开发(例如通过asc-devkit),但pyasc提供了 Python 接口来加载和注册这些自定义算子,使其能够被模型图识别和调用。扩展现有功能:开发者可以通过pyasc提供的低级接口,结合Python的高级抽象,对现有功能进行二次封装或扩展,以满足特定的应用需求。灵活的算子调用:在不涉及整个模型编译

#python#人工智能#开发语言
告别餐桌选择困难,YunYouJun cook+cpolar让私房菜谱走到哪用到哪

YunYouJun/cook 是一款聚焦 “解决吃什么” 核心需求的开源工具,核心功能是根据食材、烹饪时长、难度等条件随机推荐菜谱,还支持用户自定义添加私房菜谱,适配 Windows、macOS、Linux 等全平台,无论是厨房新手、上班族还是经常被 “吃什么” 难住的家庭用户,都能从中受益,其开源免费、操作简洁、支持 PWA 离线使用的特点,让它成为日常烹饪的实用小帮手。

文章图片
#人工智能
CANN HCOMM 深度解析:打造弹性高效的异构分布式通信底座

CANN HCOMM 仓库通过对底层通信链路的深度抽象和智能化管理,为异构分布式计算架构提供了坚实的基础。它不仅实现了高性能的数据传输,更确保了系统在面对复杂网络环境和硬件故障时的稳定性和可扩展性,是构建大规模 AI 集群的关键组件。

#图像处理#目标检测
CANN ops-cv 实战指南:打造 GPU/NPU 零等待的高性能在线数据增强流水线

在深度学习训练循环中,理想的状态是计算设备(NPU/GPU)始终满载运行反向传播计算。然而,现实中常常出现“计算等数据”的现象,即 Device 侧的计算速度远快于 Host 侧 CPU 提供数据的速度。

#开发语言#人工智能
CANN Metadef:AI 算子与模型元数据定义的基石

精心设计了数据结构和规范,以全面准确地描述 AI 算子和张量的各种属性。为开发者提供了一套清晰的规范,用于定义和集成自定义算子,从而灵活扩展CANN的计算能力。开发自定义算子的第一步是准确地定义其元数据。算子类型注册:开发者需要在metadef中注册新的算子类型,并指定其名称。输入/输出张量描述:明确新算子将接受哪些输入张量,生成哪些输出张量。这包括它们的名称、允许的数据类型、形状推导函数等。属性

#人工智能
CANN 算子生态的构建闭环:从 ops-nn 理解到自定义工具链的维护

这种模式利用了硬件的多执行单元特性,使得当前块的计算、下一块的数据载入以及前一块的结果写回能够重叠执行。在多核环境下,图引擎会根据算子依赖关系,通过智能调度算法,将计算任务均衡地分配到各个核心,避免出现计算瓶颈或核心空转,实现系统级的能效最大化。这种闭环机制确保了计算栈始终能跑在算法创新的最前沿,通过不断进化的算子集合,最大化释放硬件的计算潜能。在算子开发周期内,必须建立严苛的精度验证流程,通过与

#算法#网络协议#网络 +2
    共 24 条
  • 1
  • 2
  • 3
  • 请选择