
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
贴近硬件:提供对 AI Core 中计算单元(Cube Unit)、向量单元(Vector Unit)、标量单元(Scalar Unit)以及片上内存(Unified Buffer, UB)的直接控制。高吞吐低延迟:通过精细的内存管理与计算调度,最大化利用 NPU 的并行计算能力。兼容性:支持在 Host(CPU)和 Device(NPU)端统一编程模型,简化开发流程。Ascend C 并非标准

计算冗余:AutoDiff 会保留所有中间变量,导致显存爆炸。无法融合:多个小算子无法合并,增加 Kernel Launch 开销。不支持特殊操作:如 Top-K、自定义采样等。Swish:梯度:Ascend C 不仅适用于前向推理,更是训练加速的利器。通过手写反向算子,我们能突破自动微分的性能天花板,在大模型训练中赢得宝贵时间。期待更多开发者加入昇腾生态,共同推动 AI 基础软件的发展。

public:// 初始化 Local Buffers// Cube 相关 Buffer// 分块循环mo < m;no < n;// 初始化 C 分块为 0ko < k;// 搬入 A、B 分块// 重排为 FRACTAL_NZ(简化版:假设已对齐)// 执行 Cube GEMM// 累加到 C// 转回 RowMajor 并写出private:// 实际实现需按 16x16 分块重排。

标准算子组合效率低(如多次 kernel launch)新算法无对应算子(如 Ring Attention、ALiBi)需要极致性能优化(如融合 Softmax + MatMul)案例:某客户将 5 个算子融合为 1 个 TBE 算子,推理延迟从 12ms 降至 3.8ms。输入:Q (B, N, S, D), K (B, N, S, D), V (B, N, S, D)输出:O (B, N, S

Ascend C 是华为为昇腾 AI 处理器(如 Ascend 910B)量身打造的一种类 C++ 的高性能算子开发语言。它并非标准 C 语言的简单扩展,而是融合了编程模型、多级内存架构抽象和硬件指令级优化的专用语言。public:// 向上取整// 初始化 GlobalTensor// 初始化 Pipe// 搬入数据// 执行计算// 搬出结果private:TPipe pipe;

计算冗余:AutoDiff 会保留所有中间变量,导致显存爆炸。无法融合:多个小算子无法合并,增加 Kernel Launch 开销。不支持特殊操作:如 Top-K、自定义采样等。Swish:梯度:Ascend C 不仅适用于前向推理,更是训练加速的利器。通过手写反向算子,我们能突破自动微分的性能天花板,在大模型训练中赢得宝贵时间。期待更多开发者加入昇腾生态,共同推动 AI 基础软件的发展。

public:// 初始化 Local Buffers// Cube 相关 Buffer// 分块循环mo < m;no < n;// 初始化 C 分块为 0ko < k;// 搬入 A、B 分块// 重排为 FRACTAL_NZ(简化版:假设已对齐)// 执行 Cube GEMM// 累加到 C// 转回 RowMajor 并写出private:// 实际实现需按 16x16 分块重排。

Ascend C 是华为为昇腾 AI 处理器(如 Ascend 910B)量身打造的一种类 C++ 的高性能算子开发语言。它并非标准 C 语言的简单扩展,而是融合了编程模型、多级内存架构抽象和硬件指令级优化的专用语言。public:// 向上取整// 初始化 GlobalTensor// 初始化 Pipe// 搬入数据// 执行计算// 搬出结果private:TPipe pipe;

标准算子组合效率低(如多次 kernel launch)新算法无对应算子(如 Ring Attention、ALiBi)需要极致性能优化(如融合 Softmax + MatMul)案例:某客户将 5 个算子融合为 1 个 TBE 算子,推理延迟从 12ms 降至 3.8ms。输入:Q (B, N, S, D), K (B, N, S, D), V (B, N, S, D)输出:O (B, N, S

贴近硬件:提供对 AI Core 中计算单元(Cube Unit)、向量单元(Vector Unit)、标量单元(Scalar Unit)以及片上内存(Unified Buffer, UB)的直接控制。高吞吐低延迟:通过精细的内存管理与计算调度,最大化利用 NPU 的并行计算能力。兼容性:支持在 Host(CPU)和 Device(NPU)端统一编程模型,简化开发流程。Ascend C 并非标准








