logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

CANN 昇腾推理食谱全景解读:cann-recipes-infer 架构与使用指南

之前碰到一个语音识别的项目,需要把音频信号做 STFT(短时傅里叶变换)再进模型。PyTorch 自带的 FFT 实现倒是能用,但搬到昇腾 NPU 上之后性能惨不忍睹——后来才发现,ops-fft 仓里有专门针对 NPU 优化过的 FFT 算子,不仅速度快,还能跟前面的卷积层做算子融合。这篇文章把 FFT 在昇腾上的正确用法彻底讲清楚。

文章图片
#大数据#人工智能#架构
CANN 昇腾推理食谱全景解读:cann-recipes-infer 架构与使用指南

之前碰到一个语音识别的项目,需要把音频信号做 STFT(短时傅里叶变换)再进模型。PyTorch 自带的 FFT 实现倒是能用,但搬到昇腾 NPU 上之后性能惨不忍睹——后来才发现,ops-fft 仓里有专门针对 NPU 优化过的 FFT 算子,不仅速度快,还能跟前面的卷积层做算子融合。这篇文章把 FFT 在昇腾上的正确用法彻底讲清楚。

文章图片
#大数据#人工智能#架构
CANN 昇腾推理食谱全景解读:cann-recipes-infer 架构与使用指南

之前碰到一个语音识别的项目,需要把音频信号做 STFT(短时傅里叶变换)再进模型。PyTorch 自带的 FFT 实现倒是能用,但搬到昇腾 NPU 上之后性能惨不忍睹——后来才发现,ops-fft 仓里有专门针对 NPU 优化过的 FFT 算子,不仅速度快,还能跟前面的卷积层做算子融合。这篇文章把 FFT 在昇腾上的正确用法彻底讲清楚。

文章图片
#大数据#人工智能#架构
CANN 昇腾训练食谱全景解读:cann-recipes-train 架构与使用指南

之前优化一个推荐系统的模型,里面有大量的 Embedding 查表和矩阵乘法。Embedding 还好说,主要是后面的矩阵乘法部分,batch 上了规模之后延迟下不来。用Profile 一跑,发现GEMM 的计算效率只有 52%——这意味着将近一半的算力在空转。这篇文章聊聊如何把 GEMM 的效率调到 85%+,让每一帧算力都不浪费。GEMM(General Matrix Multiplicati

文章图片
#人工智能#大数据
CANN 昇腾训练食谱全景解读:cann-recipes-train 架构与使用指南

之前优化一个推荐系统的模型,里面有大量的 Embedding 查表和矩阵乘法。Embedding 还好说,主要是后面的矩阵乘法部分,batch 上了规模之后延迟下不来。用Profile 一跑,发现GEMM 的计算效率只有 52%——这意味着将近一半的算力在空转。这篇文章聊聊如何把 GEMM 的效率调到 85%+,让每一帧算力都不浪费。GEMM(General Matrix Multiplicati

文章图片
#人工智能#大数据
CANN 昇腾训练食谱全景解读:cann-recipes-train 架构与使用指南

之前优化一个推荐系统的模型,里面有大量的 Embedding 查表和矩阵乘法。Embedding 还好说,主要是后面的矩阵乘法部分,batch 上了规模之后延迟下不来。用Profile 一跑,发现GEMM 的计算效率只有 52%——这意味着将近一半的算力在空转。这篇文章聊聊如何把 GEMM 的效率调到 85%+,让每一帧算力都不浪费。GEMM(General Matrix Multiplicati

文章图片
#人工智能#大数据
CANN 昇腾图像预处理流水线:CV 算子深度解读

之前做过一个小目标检测的项目,模型精度和推理速度都调得差不多了,最后发现瓶颈居然在图像预处理上。resize、normalize、augmentation 这些操作每帧都要跑,累积起来的时间比 inference 还多。NV 的 DALI 可以用,但那是 GPU 专用。昇腾上有 VIC(Vision Image Compute)引擎专门解决这个问题,这篇文章把 CV 预处理的所有门道一次性讲清楚。

文章图片
#计算机视觉#目标跟踪#opencv
CANN 昇腾图像预处理流水线:CV 算子深度解读

之前做过一个小目标检测的项目,模型精度和推理速度都调得差不多了,最后发现瓶颈居然在图像预处理上。resize、normalize、augmentation 这些操作每帧都要跑,累积起来的时间比 inference 还多。NV 的 DALI 可以用,但那是 GPU 专用。昇腾上有 VIC(Vision Image Compute)引擎专门解决这个问题,这篇文章把 CV 预处理的所有门道一次性讲清楚。

文章图片
#计算机视觉#目标跟踪#opencv
CANN 昇腾图像预处理流水线:CV 算子深度解读

之前做过一个小目标检测的项目,模型精度和推理速度都调得差不多了,最后发现瓶颈居然在图像预处理上。resize、normalize、augmentation 这些操作每帧都要跑,累积起来的时间比 inference 还多。NV 的 DALI 可以用,但那是 GPU 专用。昇腾上有 VIC(Vision Image Compute)引擎专门解决这个问题,这篇文章把 CV 预处理的所有门道一次性讲清楚。

文章图片
#计算机视觉#目标跟踪#opencv
CANN 昇腾 FP16 vs FP32 精度博弈:深度学习数值精度实战指南

做深度学习训练的都知道,FP32 是黄金标准,但显存不够用;FP16 省显存又提速,但稍微不留神模型就发散。这一篇专门聊聊昇腾 NPU 上的数值精度选择问题,从原理到实战把 FP16/FP32 的选择讲通透。这个问题看起来简单,实际上坑很多。选错了精度,模型要么收敛慢、要么直接 NaN、要么推理精度掉成狗。所有在昇腾上做优化的工程师迟早都会碰到这个抉择。训练用混合精度:O1+Amp,最稳妥的方案推

文章图片
#深度学习#人工智能
    共 59 条
  • 1
  • 2
  • 3
  • 6
  • 请选择