
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
Catlass(CANN Atlas)算子模板库是异构计算平台中实现高性能通用矩阵乘法(GEMM)的基石。它超越了传统 BLAS 库的范畴,通过 C++ 模板元编程技术,将硬件架构细节(如 Cube Unit 的位宽、L0 缓存大小、DMA 引擎控制)直接编码到算子定义中。Catlass 的核心目标是在 LLM 等计算密集型任务中,实现和。
PyPTO 允许开发者插入自定义的 Vector 指令。Intrinsics 调用:在 Compute 阶段,开发者可以直接调用 Ascend C 提供的底层 Intrinsics(如ExpReciprocalSoftmax等),构建复杂的非线性变换逻辑。Mask 处理:针对变长序列或 Padding 场景,PyPTO 支持向量掩码(Vector Mask)操作,精确控制哪些元素参与计算,防止越界
在异构计算体系中,计算图的编译与优化是释放底层硬件算力的关键环。图引擎(Graph Engine, GE)作为核心组件,承担着将高层框架逻辑转化为硬件可执行序列的重任。通过深度的静态分析与动态调度,GE 不仅解决了内存墙与访存瓶颈,更在复杂的分布式与异构场景下展现了卓越的编排能力。
GE 将逻辑图节点转化为低级执行任务。Task 类型定义:编译输出包含 Kernel Launch Tasks (启动ops-math或ops-nn核函数)、Memcpy Tasks (Host/Device 间数据搬运)、以及 Synchronization Tasks (控制依赖)。Stream 分组:GE 根据数据依赖关系,将这些 Task 划分到不同的执行流(Stream)中。一个 Str
GE 将逻辑图节点转化为低级执行任务。Task 类型定义:编译输出包含 Kernel Launch Tasks (启动ops-math或ops-nn核函数)、Memcpy Tasks (Host/Device 间数据搬运)、以及 Synchronization Tasks (控制依赖)。Stream 分组:GE 根据数据依赖关系,将这些 Task 划分到不同的执行流(Stream)中。一个 Str
在深度学习的计算图谱中,通用矩阵乘法(General Matrix Multiplication, GEMM)占据了绝大多数的计算周期。无论是 CNN 中的卷积操作,还是 Transformer 中的 Attention 机制,底层核心皆为 GEMM。正是为解决这一核心痛点而生,它作为一套基于 C++ Template 的高性能算子库,专门针对 CANN 架构下的 AI 处理器(NPU)设计,旨在
在深度学习的计算图谱中,通用矩阵乘法(General Matrix Multiplication, GEMM)占据了绝大多数的计算周期。无论是 CNN 中的卷积操作,还是 Transformer 中的 Attention 机制,底层核心皆为 GEMM。正是为解决这一核心痛点而生,它作为一套基于 C++ Template 的高性能算子库,专门针对 CANN 架构下的 AI 处理器(NPU)设计,旨在
CANN Runtime 仓库所代表的组件,是确保高性能、高可靠性、高精度部署的逻辑中心。它通过实现定制化的、硬件感知的内存管理和高效的异步同步机制,将复杂的底层硬件细节封装在稳定、可预测的抽象层之后。Runtime 的健壮性是上层算子生态实现其加速潜力的先决条件。
传输描述符是 DMA 引擎工作的“菜谱”。基础寻址:包含源地址(Source Addr)、目标地址(Destination Addr)以及传输长度(Length)。支持 64 位物理地址寻址,覆盖片内与片间内存空间。跨步(Stride)机制:为了支持矩阵运算中的非连续访问(如矩阵转置或 Im2col 操作),TD 包含 Source Stride 和 Destination Stride 字段。这
图引擎(GE)通过对计算图进行深度的数据流和生命周期分析,是实现 NPU 内存高效利用的核心组件。通过静态地消除中间张量的 HBM 冗余、执行激进的算子融合,并精确管理通信缓冲区生命周期,GE 确保了模型能够在资源受限的部署环境中以最小的内存占用和最高的缓存命中率运行。CANN 组织链接GE 仓库链接。







