2501_94603442 个人主页

@2501_94603442

2501_94603442

2025-12-10 23:09:47 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

《深入昇腾底层：用 Ascend C 手写高性能算子，从零实现自定义卷积核》

贴近硬件：提供对 AI Core 中计算单元（Cube Unit）、向量单元（Vector Unit）、标量单元（Scalar Unit）以及片上内存（Unified Buffer, UB）的直接控制。高吞吐低延迟：通过精细的内存管理与计算调度，最大化利用 NPU 的并行计算能力。兼容性：支持在 Host（CPU）和 Device（NPU）端统一编程模型，简化开发流程。Ascend C 并非标准

#人工智能

《超越自动微分：用 Ascend C 实现高效自定义反向传播算子》

计算冗余：AutoDiff 会保留所有中间变量，导致显存爆炸。无法融合：多个小算子无法合并，增加 Kernel Launch 开销。不支持特殊操作：如 Top-K、自定义采样等。Swish:梯度：Ascend C 不仅适用于前向推理，更是训练加速的利器。通过手写反向算子，我们能突破自动微分的性能天花板，在大模型训练中赢得宝贵时间。期待更多开发者加入昇腾生态，共同推动 AI 基础软件的发展。

#人工智能

《深入 Ascend C 高级特性：实现高性能 GEMM 算子与性能调优全攻略》

public:// 初始化 Local Buffers// Cube 相关 Buffer// 分块循环mo < m;no < n;// 初始化 C 分块为 0ko < k;// 搬入 A、B 分块// 重排为 FRACTAL_NZ（简化版：假设已对齐）// 执行 Cube GEMM// 累加到 C// 转回 RowMajor 并写出private:// 实际实现需按 16x16 分块重排。

#c语言 #开发语言

昇腾 Ascend 自定义算子开发全攻略：从 TBE DSL 到 AICPU，打通 AI 加速最后一公里

标准算子组合效率低（如多次 kernel launch）新算法无对应算子（如 Ring Attention、ALiBi）需要极致性能优化（如融合 Softmax + MatMul）案例：某客户将 5 个算子融合为 1 个 TBE 算子，推理延迟从 12ms 降至 3.8ms。输入：Q (B, N, S, D), K (B, N, S, D), V (B, N, S, D)输出：O (B, N, S

#人工智能

《从零入门 Ascend C：华为昇腾 AI 芯片的高性能算子开发实战》

Ascend C 是华为为昇腾 AI 处理器（如 Ascend 910B）量身打造的一种类 C++ 的高性能算子开发语言。它并非标准 C 语言的简单扩展，而是融合了编程模型、多级内存架构抽象和硬件指令级优化的专用语言。public:// 向上取整// 初始化 GlobalTensor// 初始化 Pipe// 搬入数据// 执行计算// 搬出结果private:TPipe pipe;

#人工智能

《超越自动微分：用 Ascend C 实现高效自定义反向传播算子》

#人工智能

《深入 Ascend C 高级特性：实现高性能 GEMM 算子与性能调优全攻略》

#c语言 #开发语言

《从零入门 Ascend C：华为昇腾 AI 芯片的高性能算子开发实战》

#人工智能

昇腾 Ascend 自定义算子开发全攻略：从 TBE DSL 到 AICPU，打通 AI 加速最后一公里

#人工智能

《深入昇腾底层：用 Ascend C 手写高性能算子，从零实现自定义卷积核》

#人工智能

共 19 条

请选择