logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【cann-samples系列】RmsNormQuant:Ascend950 上的高性能 Vector 算子分阶段优化实践

本文记录Vector融合算子 RmsNormQuant 在昇腾Ascend950上的性能优化过程。RmsNormQuant 是 LLM 推理中 RmsNorm 归一化与 Int8 量化的融合算子,通过消除中间结果的 GM 写回+读入,在访存效率上优于分离执行。优化从最基础的公式直译实现出发,逐步识别并消除每一层性能瓶颈,最终达成 157 倍的性能加速。Vector 算子的性能建模方法——如何通过

#CANN#昇腾
【cann-samples系列】RmsNormQuant:Ascend950 上的高性能 Vector 算子分阶段优化实践

本文记录Vector融合算子 RmsNormQuant 在昇腾Ascend950上的性能优化过程。RmsNormQuant 是 LLM 推理中 RmsNorm 归一化与 Int8 量化的融合算子,通过消除中间结果的 GM 写回+读入,在访存效率上优于分离执行。优化从最基础的公式直译实现出发,逐步识别并消除每一层性能瓶颈,最终达成 157 倍的性能加速。Vector 算子的性能建模方法——如何通过

#CANN#昇腾
【cann-samples系列】RmsNormQuant:Ascend950 上的高性能 Vector 算子分阶段优化实践

本文记录Vector融合算子 RmsNormQuant 在昇腾Ascend950上的性能优化过程。RmsNormQuant 是 LLM 推理中 RmsNorm 归一化与 Int8 量化的融合算子,通过消除中间结果的 GM 写回+读入,在访存效率上优于分离执行。优化从最基础的公式直译实现出发,逐步识别并消除每一层性能瓶颈,最终达成 157 倍的性能加速。Vector 算子的性能建模方法——如何通过

#CANN#昇腾
【cann-samples系列】MX量化矩阵乘的性能优化实践

cann-samples:https://gitcode.com/cann/cann-sample计算公式ci,j=∑g=0ceil(K/G)−1(scaleAi,g⋅scaleBg,j⋅∑k′=0G−1(ai,gG+k′⋅bgG+k′,j))c_{i, j} = \sum^{ceil(K/G)-1}_{g=0}\left(scaleA_{i, g} \cdot scaleB_{g, j} \cd

#矩阵#性能优化#CANN
【cann-samples系列】MX量化矩阵乘的性能优化实践

cann-samples:https://gitcode.com/cann/cann-sample计算公式ci,j=∑g=0ceil(K/G)−1(scaleAi,g⋅scaleBg,j⋅∑k′=0G−1(ai,gG+k′⋅bgG+k′,j))c_{i, j} = \sum^{ceil(K/G)-1}_{g=0}\left(scaleA_{i, g} \cdot scaleB_{g, j} \cd

#矩阵#性能优化#CANN
TensorFlow×AutoFuse实现算子自动融合,提升推荐模型48%的性能!

在电商行业中,推荐模型可以将合适的商品在合适的时间推送给最可能对其感兴趣的人群,从而大幅提升用户体验和平台转化率。某电商平台便使用了多个基于TensorFlow框架的传统推荐模型,这些模型存在大量的Add、ReLU、LayerNorm等轻量级算子,执行频繁,不仅调度开销高,还会频繁搬运算子的输入输出,极大降低了模型的执行效率。采用融合算子的方式可以有效优化以上瓶颈,将这些小算子融合成一个大算子,既

文章图片
TensorFlow×AutoFuse实现算子自动融合,提升推荐模型48%的性能!

在电商行业中,推荐模型可以将合适的商品在合适的时间推送给最可能对其感兴趣的人群,从而大幅提升用户体验和平台转化率。某电商平台便使用了多个基于TensorFlow框架的传统推荐模型,这些模型存在大量的Add、ReLU、LayerNorm等轻量级算子,执行频繁,不仅调度开销高,还会频繁搬运算子的输入输出,极大降低了模型的执行效率。采用融合算子的方式可以有效优化以上瓶颈,将这些小算子融合成一个大算子,既

文章图片
TensorFlow×AutoFuse实现算子自动融合,提升推荐模型48%的性能!

TensorFlow×AutoFuse实现算子自动融合,提升推荐模型48%的性能! 背景介绍 在电商行业中,推荐模型可以将合适的商品在合适的时间推送给最可能对其感兴趣的人群,从而大幅提升用户体验和平台转化率。某电商平台便使用了多个基于TensorFlow框架的传统推荐模型,这些模型存在大量的Add、ReLU、LayerNorm等轻量级算子,执行频繁,不仅调度开销高,还会频繁搬运算子的输入输出,极大

文章图片
CANN-Bench设计解读-如何构建一个Agent-Native的算子评测体系

AI大模型和Harness 工程快速发展的今天,模型+Agent的组合使得复杂系统级代码开发任务门槛进一步降低,昇腾CANN作为算力基础设施的一部分,也迎来了从古法编程到AI编程的关键转折,CANN领域中的算子开发效率出现了数量级的提升,但选择什么样的模型,使用哪个Agent能够产出高质量的算子,成了开发经常遇到的问题。数据层是整个评测体系的基础,CANN-Bench通过“算子定义+测试用例+真值

文章图片
#人工智能#昇腾#CANN +1
CANN-Bench设计解读-如何构建一个Agent-Native的算子评测体系

AI大模型和Harness 工程快速发展的今天,模型+Agent的组合使得复杂系统级代码开发任务门槛进一步降低,昇腾CANN作为算力基础设施的一部分,也迎来了从古法编程到AI编程的关键转折,CANN领域中的算子开发效率出现了数量级的提升,但选择什么样的模型,使用哪个Agent能够产出高质量的算子,成了开发经常遇到的问题。数据层是整个评测体系的基础,CANN-Bench通过“算子定义+测试用例+真值

文章图片
#人工智能#昇腾#CANN +1
    共 721 条
  • 1
  • 2
  • 3
  • 73
  • 请选择