
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
Ascend C 是华为为昇腾 AI 芯片(如 Ascend 910、Ascend 310)量身打造的高性能编程语言,本质上是C++17 的一个超集,通过扩展关键字、内置函数(Intrinsics)、编译器指令和运行时库,支持开发者直接编写运行在昇腾 NPU(Neural Processing Unit)上的自定义算子。注意:Ascend C 并非用于编写完整的 AI 模型训练/推理程序,而是专注

Ascend C 是华为昇腾(Ascend)AI 处理器生态中的核心编程语言,专为在昇腾 NPU 上实现极致性能而设计。本文系统性地介绍 Ascend C 的设计哲学、内存模型、并行计算机制、数据搬运策略,并通过多个典型算子(如 GEMM、Conv2D、Softmax)的完整实现案例,深入剖析其编程范式与优化技巧。同时,结合 CANN(Compute Architecture for Neural

在掌握 Ascend C 基础之后,如何将其应用于真实场景并实现工业级性能?本文聚焦高级优化技术,深入剖析昇腾 NPU 的微架构特性,结合 GEMM、Attention、Conv 等典型算子,系统讲解数据布局优化、计算融合、流水线调度、精度混合等关键技术。通过多个完整案例(含代码与性能数据),帮助开发者构建高性能、低功耗的 AI 推理/训练系统,并介绍 CANN 7.0 中的新特性(如 AOE 自

模型中使用了非标准激活函数(如 SwiGLU、GeLU with approximation);需要实现稀疏注意力机制或自定义归一化层(如 RMSNorm);官方框架提供的算子在昇腾芯片上性能不佳或精度不匹配;想通过算子融合(Kernel Fusion)减少内存读写开销,提升端到端推理速度。此时,仅依赖 MindSpore、PyTorch 等高层框架的内置算子已无法满足需求。而Ascend C。

随着人工智能模型规模的爆炸式增长,传统 CPU 和通用 GPU 在推理和训练任务中逐渐暴露出能效比低、延迟高等问题。为应对这一挑战,专用 AI 加速器成为行业主流方向。华为昇腾(Ascend)系列 AI 处理器正是在此背景下应运而生。为了充分发挥昇腾硬件的计算潜力,华为推出了Ascend C——一种专为昇腾 NPU(神经网络处理单元)设计的高性能编程语言。

随着人工智能模型规模的爆炸式增长,传统 CPU 和通用 GPU 在推理和训练任务中逐渐暴露出能效比低、延迟高等问题。为应对这一挑战,专用 AI 加速器成为行业主流方向。华为昇腾(Ascend)系列 AI 处理器正是在此背景下应运而生。为了充分发挥昇腾硬件的计算潜力,华为推出了Ascend C——一种专为昇腾 NPU(神经网络处理单元)设计的高性能编程语言。

在掌握 Ascend C 基础之后,如何将其应用于真实场景并实现工业级性能?本文聚焦高级优化技术,深入剖析昇腾 NPU 的微架构特性,结合 GEMM、Attention、Conv 等典型算子,系统讲解数据布局优化、计算融合、流水线调度、精度混合等关键技术。通过多个完整案例(含代码与性能数据),帮助开发者构建高性能、低功耗的 AI 推理/训练系统,并介绍 CANN 7.0 中的新特性(如 AOE 自

Ascend C 是华为为昇腾 AI 芯片(如 Ascend 910、Ascend 310)量身打造的高性能编程语言,本质上是C++17 的一个超集,通过扩展关键字、内置函数(Intrinsics)、编译器指令和运行时库,支持开发者直接编写运行在昇腾 NPU(Neural Processing Unit)上的自定义算子。注意:Ascend C 并非用于编写完整的 AI 模型训练/推理程序,而是专注

Ascend C 是华为昇腾(Ascend)AI 处理器生态中的核心编程语言,专为在昇腾 NPU 上实现极致性能而设计。本文系统性地介绍 Ascend C 的设计哲学、内存模型、并行计算机制、数据搬运策略,并通过多个典型算子(如 GEMM、Conv2D、Softmax)的完整实现案例,深入剖析其编程范式与优化技巧。同时,结合 CANN(Compute Architecture for Neural

大模型(LLM)推理对延迟和吞吐提出极高要求。本文聚焦 Ascend C 如何在 Llama、ChatGLM 等主流大模型推理场景中发挥作用。通过剖析 Attention、RMSNorm、SwiGLU 等关键算子的 Ascend C 实现,结合 PagedAttention、KV Cache 优化等高级技术,展示如何将端到端推理延迟降低 40% 以上。同时,提供完整的部署 pipeline 与性能








