logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

《深入 Ascend C 编程:从零构建高性能 AI 算子(上)—— 基础架构与矩阵乘法实战》

本文介绍了 Ascend C 的基本架构,并通过 GEMM 算子展示了其编程模型。虽然示例代码做了简化,但已涵盖内存管理、数据搬运、计算调度三大核心要素。在下一篇文章中,我们将深入卷积算子的实现,并探讨性能分析工具(如 msprof)的使用。2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不同阶段开发者快速提升算子开发技能

文章图片
#c语言#人工智能#矩阵
Ascend C 动态 Shape 算子开发实战——支持变长序列的 RMSNorm 与 RoPE 实现

本文攻克了 Ascend C动态 Shape 支持的核心难题,通过最大预分配 + 运行时裁剪策略,实现了真正实用的变长算子。LLM 推理(任意 prompt 长度);语音识别(变长音频);OCR(不同尺寸图像)。掌握此技术,可大幅提升模型部署的灵活性与鲁棒性。2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不同阶段开发者快

文章图片
#python#人工智能#机器学习
面向 INT8 低比特推理的 Ascend C 实战——高效实现量化 GEMM 与 Dequant 算子

本文展示了如何利用 Ascend C 实现高性能 INT8 GEMM + Dequant 融合算子,在保证精度的同时显著提升推理吞吐。Attention QKV 量化融合;全连接层量化;Vision Transformer 的 Patch Embedding 量化。掌握此能力,是构建端到端低比特推理 pipeline的核心技能。2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0

文章图片
#人工智能#大数据
Ascend C 高级编程:实现带融合优化的 LayerNorm 算子》

从算法(Welford)到硬件(Vector Core)的全栈优化实现了单 pass、向量化、双缓冲的高性能 LayerNorm获得54 倍加速,验证了 Ascend C 的强大能力。

文章图片
#c语言#开发语言
《深入 Ascend C:从零构建高性能自定义算子(7000+字实战指南)》

注册自定义算子# 测试Ascend C 虽然学习曲线陡峭,但它是释放昇腾芯片全部潜能的“钥匙”。Ascend C 工程搭建数据搬运与计算流水线设计算子注册与 Python 调用性能分析方法2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不同阶段开发者快速提升算子开发技能。获得Ascend C算子中级认证,即可领取精美证书,

文章图片
#c语言#开发语言
Ascend C 高级编程:实现带融合优化的 LayerNorm 算子》

从算法(Welford)到硬件(Vector Core)的全栈优化实现了单 pass、向量化、双缓冲的高性能 LayerNorm获得54 倍加速,验证了 Ascend C 的强大能力。

文章图片
#c语言#开发语言
面向 INT8 低比特推理的 Ascend C 实战——高效实现量化 GEMM 与 Dequant 算子

本文展示了如何利用 Ascend C 实现高性能 INT8 GEMM + Dequant 融合算子,在保证精度的同时显著提升推理吞吐。Attention QKV 量化融合;全连接层量化;Vision Transformer 的 Patch Embedding 量化。掌握此能力,是构建端到端低比特推理 pipeline的核心技能。2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0

文章图片
#人工智能#大数据
Ascend C 动态 Shape 算子开发实战——支持变长序列的 RMSNorm 与 RoPE 实现

本文攻克了 Ascend C动态 Shape 支持的核心难题,通过最大预分配 + 运行时裁剪策略,实现了真正实用的变长算子。LLM 推理(任意 prompt 长度);语音识别(变长音频);OCR(不同尺寸图像)。掌握此技术,可大幅提升模型部署的灵活性与鲁棒性。2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不同阶段开发者快

文章图片
#python#人工智能#机器学习
面向 INT8 低比特推理的 Ascend C 实战——高效实现量化 GEMM 与 Dequant 算子

本文展示了如何利用 Ascend C 实现高性能 INT8 GEMM + Dequant 融合算子,在保证精度的同时显著提升推理吞吐。Attention QKV 量化融合;全连接层量化;Vision Transformer 的 Patch Embedding 量化。掌握此能力,是构建端到端低比特推理 pipeline的核心技能。2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0

文章图片
#人工智能#大数据
《Ascend C 进阶实战:高性能通用 Softmax 算子设计、数值稳定性与多轴支持》

编写softmax.cc(调用上述 Kernel)注册算子:数值稳定性保障(减最大值)多轴支持(outer/reduce/inner 拆分)高性能归约(ReduceMax/ReduceSum 指令)完整 Host 调用与验证FP16 支持与框架集成方案2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不同阶段开发者快速提升算

文章图片
#c语言#开发语言
    共 23 条
  • 1
  • 2
  • 3
  • 请选择