
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文介绍了 Ascend C 的基本架构,并通过 GEMM 算子展示了其编程模型。虽然示例代码做了简化,但已涵盖内存管理、数据搬运、计算调度三大核心要素。在下一篇文章中,我们将深入卷积算子的实现,并探讨性能分析工具(如 msprof)的使用。2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不同阶段开发者快速提升算子开发技能

本文攻克了 Ascend C动态 Shape 支持的核心难题,通过最大预分配 + 运行时裁剪策略,实现了真正实用的变长算子。LLM 推理(任意 prompt 长度);语音识别(变长音频);OCR(不同尺寸图像)。掌握此技术,可大幅提升模型部署的灵活性与鲁棒性。2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不同阶段开发者快

本文展示了如何利用 Ascend C 实现高性能 INT8 GEMM + Dequant 融合算子,在保证精度的同时显著提升推理吞吐。Attention QKV 量化融合;全连接层量化;Vision Transformer 的 Patch Embedding 量化。掌握此能力,是构建端到端低比特推理 pipeline的核心技能。2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0

从算法(Welford)到硬件(Vector Core)的全栈优化实现了单 pass、向量化、双缓冲的高性能 LayerNorm获得54 倍加速,验证了 Ascend C 的强大能力。

注册自定义算子# 测试Ascend C 虽然学习曲线陡峭,但它是释放昇腾芯片全部潜能的“钥匙”。Ascend C 工程搭建数据搬运与计算流水线设计算子注册与 Python 调用性能分析方法2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不同阶段开发者快速提升算子开发技能。获得Ascend C算子中级认证,即可领取精美证书,

从算法(Welford)到硬件(Vector Core)的全栈优化实现了单 pass、向量化、双缓冲的高性能 LayerNorm获得54 倍加速,验证了 Ascend C 的强大能力。

本文展示了如何利用 Ascend C 实现高性能 INT8 GEMM + Dequant 融合算子,在保证精度的同时显著提升推理吞吐。Attention QKV 量化融合;全连接层量化;Vision Transformer 的 Patch Embedding 量化。掌握此能力,是构建端到端低比特推理 pipeline的核心技能。2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0

本文攻克了 Ascend C动态 Shape 支持的核心难题,通过最大预分配 + 运行时裁剪策略,实现了真正实用的变长算子。LLM 推理(任意 prompt 长度);语音识别(变长音频);OCR(不同尺寸图像)。掌握此技术,可大幅提升模型部署的灵活性与鲁棒性。2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不同阶段开发者快

本文展示了如何利用 Ascend C 实现高性能 INT8 GEMM + Dequant 融合算子,在保证精度的同时显著提升推理吞吐。Attention QKV 量化融合;全连接层量化;Vision Transformer 的 Patch Embedding 量化。掌握此能力,是构建端到端低比特推理 pipeline的核心技能。2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0

编写softmax.cc(调用上述 Kernel)注册算子:数值稳定性保障(减最大值)多轴支持(outer/reduce/inner 拆分)高性能归约(ReduceMax/ReduceSum 指令)完整 Host 调用与验证FP16 支持与框架集成方案2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不同阶段开发者快速提升算








