logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

打造 Transformer 推理加速器:基于 Ascend C 的高性能 LayerNorm 自定义算子全解析

假设处理张量形状数据类型存储位置input[B, H]FP16GMgamma[H]FP16GM(常驻)beta[H]FP16GM(常驻)output[B, H]FP16GM💡关键洞察:由于每个 token 独立,我们可按 token 分块处理,每次加载一个 token 的 input(H 个 FP16)到 UB。本文深入剖析了LayerNorm 算子的 Ascend C 实现融合计算流程:将均值

#transformer#c语言#深度学习
突破稠密计算瓶颈:基于 Ascend C 实现高性能稀疏矩阵乘法(Sparse GEMM)

S:稀疏矩阵(M×K,CSR 格式)X:稠密矩阵(K×N,FP16)Y:输出矩阵(M×N,FP16)⚠️ 注意:本文假设N=1(即 GEMV),可扩展至 N>1,但 GEMV 是 KV Cache 场景的典型需求。本文系统讲解了如何用Ascend C 实现高性能稀疏 GEMV 算子完整 CSR 格式支持:涵盖数据布局、内存管理、计算流程;关键优化策略:X 向量全缓存、UB 内计算、避免 HBM 随

#c语言#矩阵#开发语言
深入Ascend C(四):多算子融合与图级优化实战——构建高性能Attention自定义Kernel

本文通过实现一个端到端融合的 Attention Kernel,展示了 Ascend C 在复杂计算图优化中的强大能力。算子融合不仅是“把代码写在一起”,更是对数据流、内存层次、计算单元的深度协同设计。可将 LLM 推理速度提升 2–3 倍在同等硬件下支持更长上下文为商业产品构建性能壁垒本系列四篇文章至此完结,但 Ascend C 的探索永无止境。希望这些内容能助你在 AI 底层优化之路上走得更远

#c语言#开发语言
深入Ascend C(四):多算子融合与图级优化实战——构建高性能Attention自定义Kernel

本文通过实现一个端到端融合的 Attention Kernel,展示了 Ascend C 在复杂计算图优化中的强大能力。算子融合不仅是“把代码写在一起”,更是对数据流、内存层次、计算单元的深度协同设计。可将 LLM 推理速度提升 2–3 倍在同等硬件下支持更长上下文为商业产品构建性能壁垒本系列四篇文章至此完结,但 Ascend C 的探索永无止境。希望这些内容能助你在 AI 底层优化之路上走得更远

#c语言#开发语言
打造 Transformer 推理加速器:基于 Ascend C 的高性能 LayerNorm 自定义算子全解析

假设处理张量形状数据类型存储位置input[B, H]FP16GMgamma[H]FP16GM(常驻)beta[H]FP16GM(常驻)output[B, H]FP16GM💡关键洞察:由于每个 token 独立,我们可按 token 分块处理,每次加载一个 token 的 input(H 个 FP16)到 UB。本文深入剖析了LayerNorm 算子的 Ascend C 实现融合计算流程:将均值

#transformer#c语言#深度学习
突破稠密计算瓶颈:基于 Ascend C 实现高性能稀疏矩阵乘法(Sparse GEMM)

S:稀疏矩阵(M×K,CSR 格式)X:稠密矩阵(K×N,FP16)Y:输出矩阵(M×N,FP16)⚠️ 注意:本文假设N=1(即 GEMV),可扩展至 N>1,但 GEMV 是 KV Cache 场景的典型需求。本文系统讲解了如何用Ascend C 实现高性能稀疏 GEMV 算子完整 CSR 格式支持:涵盖数据布局、内存管理、计算流程;关键优化策略:X 向量全缓存、UB 内计算、避免 HBM 随

#c语言#矩阵#开发语言
深入理解 Ascend C:华为昇腾 AI 芯片的高性能编程语言入门指

下面我们完整实现一个Add算子。避免频繁内存分配:尽量复用 UB。对齐数据:确保 tensor 尺寸是 16/32 的倍数。利用 Vector/Cube 指令:避免手写循环。使用 AoE Profiler:分析性能瓶颈。Ascend C 虽有一定学习曲线,但掌握后可显著提升模型在昇腾芯片上的推理效率。对于需要极致性能的场景(如大模型推理、实时视频分析),自定义算子是不可或缺的利器。特殊卷积变体:如

#c语言#华为#人工智能
深入理解 Ascend C:华为昇腾 AI 芯片的高性能编程语言入门指

下面我们完整实现一个Add算子。避免频繁内存分配:尽量复用 UB。对齐数据:确保 tensor 尺寸是 16/32 的倍数。利用 Vector/Cube 指令:避免手写循环。使用 AoE Profiler:分析性能瓶颈。Ascend C 虽有一定学习曲线,但掌握后可显著提升模型在昇腾芯片上的推理效率。对于需要极致性能的场景(如大模型推理、实时视频分析),自定义算子是不可或缺的利器。特殊卷积变体:如

#c语言#华为#人工智能
深入理解 Ascend C:华为昇腾 AI 芯片的高性能编程语言入门指

下面我们完整实现一个Add算子。避免频繁内存分配:尽量复用 UB。对齐数据:确保 tensor 尺寸是 16/32 的倍数。利用 Vector/Cube 指令:避免手写循环。使用 AoE Profiler:分析性能瓶颈。Ascend C 虽有一定学习曲线,但掌握后可显著提升模型在昇腾芯片上的推理效率。对于需要极致性能的场景(如大模型推理、实时视频分析),自定义算子是不可或缺的利器。特殊卷积变体:如

#c语言#华为#人工智能
深入Ascend C(四):多算子融合与图级优化实战——构建高性能Attention自定义Kernel

本文通过实现一个端到端融合的 Attention Kernel,展示了 Ascend C 在复杂计算图优化中的强大能力。算子融合不仅是“把代码写在一起”,更是对数据流、内存层次、计算单元的深度协同设计。可将 LLM 推理速度提升 2–3 倍在同等硬件下支持更长上下文为商业产品构建性能壁垒本系列四篇文章至此完结,但 Ascend C 的探索永无止境。希望这些内容能助你在 AI 底层优化之路上走得更远

#c语言#开发语言
    共 15 条
  • 1
  • 2
  • 请选择