logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

PyTorch 模型迁移到昇腾NPU 完整指南

之前帮一个团队做 PyTorch 模型迁移,他们用的是 BERT-Large 做文本分类,在 GPU 上跑得好好的,换成昇腾NPU 后直接报了一堆算子不支持的错误。,把 PyTorch 的算子映射成昇腾CANN 的算子。

文章图片
#pytorch#人工智能#python
PyTorch 模型迁移到昇腾NPU 完整指南

之前帮一个团队做 PyTorch 模型迁移,他们用的是 BERT-Large 做文本分类,在 GPU 上跑得好好的,换成昇腾NPU 后直接报了一堆算子不支持的错误。,把 PyTorch 的算子映射成昇腾CANN 的算子。

文章图片
#pytorch#人工智能#python
PyTorch 模型迁移到昇腾NPU 完整指南

之前帮一个团队做 PyTorch 模型迁移,他们用的是 BERT-Large 做文本分类,在 GPU 上跑得好好的,换成昇腾NPU 后直接报了一堆算子不支持的错误。,把 PyTorch 的算子映射成昇腾CANN 的算子。

文章图片
#pytorch#人工智能#python
GE(图引擎)- 昇腾CANN的计算图优化核心

第一次看 GE(Graph Engine)的源码,最让我震撼的是:100+ 优化Pass,各种算子融合、内存复用、并行策略,光是配置文件就看得头晕。,负责把深度学习框架的计算图,优化成能在昇腾NPU上高效执行的图。

文章图片
#大数据
GE(图引擎)- 昇腾CANN的计算图优化核心

第一次看 GE(Graph Engine)的源码,最让我震撼的是:100+ 优化Pass,各种算子融合、内存复用、并行策略,光是配置文件就看得头晕。,负责把深度学习框架的计算图,优化成能在昇腾NPU上高效执行的图。

文章图片
#大数据
ops-cv - 让计算机视觉“看得快“

之前帮一个团队做工业质检的视觉检测,他们用 YOLOv8 做缺陷检测。在 x86 + NVIDIA T4 上能跑到 45 FPS,老板满意得不行。后来换成昇腾NPU(Atlas 300I Pro),直接傻眼——,还不如训练卡。。每次推理完还要把特征图拷回 CPU 做后处理,PCIe 带宽直接吃掉 30% 的帧率。后来换成里的 NPU 原生实现,同样模型直接飙到。

文章图片
#计算机视觉#人工智能
ops-cv - 让计算机视觉“看得快“

之前帮一个团队做工业质检的视觉检测,他们用 YOLOv8 做缺陷检测。在 x86 + NVIDIA T4 上能跑到 45 FPS,老板满意得不行。后来换成昇腾NPU(Atlas 300I Pro),直接傻眼——,还不如训练卡。。每次推理完还要把特征图拷回 CPU 做后处理,PCIe 带宽直接吃掉 30% 的帧率。后来换成里的 NPU 原生实现,同样模型直接飙到。

文章图片
#计算机视觉#人工智能
ops-cv - 让计算机视觉“看得快“

之前帮一个团队做工业质检的视觉检测,他们用 YOLOv8 做缺陷检测。在 x86 + NVIDIA T4 上能跑到 45 FPS,老板满意得不行。后来换成昇腾NPU(Atlas 300I Pro),直接傻眼——,还不如训练卡。。每次推理完还要把特征图拷回 CPU 做后处理,PCIe 带宽直接吃掉 30% 的帧率。后来换成里的 NPU 原生实现,同样模型直接飙到。

文章图片
#计算机视觉#人工智能
ops-math - 数学算子库的性能艺术

做数值计算那会,最让我头疼的是。Sin、Cos、Exp、Log 这些函数,要实现高精度,计算量就大;要快,精度就掉。CPU 上有 Intel MKL、ARM Performance Libraries,专门优化这些数学函数。昇腾NPU上呢?答案在。

文章图片
#大数据
ops-math - 数学算子库的性能艺术

做数值计算那会,最让我头疼的是。Sin、Cos、Exp、Log 这些函数,要实现高精度,计算量就大;要快,精度就掉。CPU 上有 Intel MKL、ARM Performance Libraries,专门优化这些数学函数。昇腾NPU上呢?答案在。

文章图片
#大数据
    共 46 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择