
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
之前帮一个团队做 PyTorch 模型迁移,他们用的是 BERT-Large 做文本分类,在 GPU 上跑得好好的,换成昇腾NPU 后直接报了一堆算子不支持的错误。,把 PyTorch 的算子映射成昇腾CANN 的算子。

之前帮一个团队做 PyTorch 模型迁移,他们用的是 BERT-Large 做文本分类,在 GPU 上跑得好好的,换成昇腾NPU 后直接报了一堆算子不支持的错误。,把 PyTorch 的算子映射成昇腾CANN 的算子。

之前帮一个团队做 PyTorch 模型迁移,他们用的是 BERT-Large 做文本分类,在 GPU 上跑得好好的,换成昇腾NPU 后直接报了一堆算子不支持的错误。,把 PyTorch 的算子映射成昇腾CANN 的算子。

第一次看 GE(Graph Engine)的源码,最让我震撼的是:100+ 优化Pass,各种算子融合、内存复用、并行策略,光是配置文件就看得头晕。,负责把深度学习框架的计算图,优化成能在昇腾NPU上高效执行的图。

第一次看 GE(Graph Engine)的源码,最让我震撼的是:100+ 优化Pass,各种算子融合、内存复用、并行策略,光是配置文件就看得头晕。,负责把深度学习框架的计算图,优化成能在昇腾NPU上高效执行的图。

之前帮一个团队做工业质检的视觉检测,他们用 YOLOv8 做缺陷检测。在 x86 + NVIDIA T4 上能跑到 45 FPS,老板满意得不行。后来换成昇腾NPU(Atlas 300I Pro),直接傻眼——,还不如训练卡。。每次推理完还要把特征图拷回 CPU 做后处理,PCIe 带宽直接吃掉 30% 的帧率。后来换成里的 NPU 原生实现,同样模型直接飙到。

之前帮一个团队做工业质检的视觉检测,他们用 YOLOv8 做缺陷检测。在 x86 + NVIDIA T4 上能跑到 45 FPS,老板满意得不行。后来换成昇腾NPU(Atlas 300I Pro),直接傻眼——,还不如训练卡。。每次推理完还要把特征图拷回 CPU 做后处理,PCIe 带宽直接吃掉 30% 的帧率。后来换成里的 NPU 原生实现,同样模型直接飙到。

之前帮一个团队做工业质检的视觉检测,他们用 YOLOv8 做缺陷检测。在 x86 + NVIDIA T4 上能跑到 45 FPS,老板满意得不行。后来换成昇腾NPU(Atlas 300I Pro),直接傻眼——,还不如训练卡。。每次推理完还要把特征图拷回 CPU 做后处理,PCIe 带宽直接吃掉 30% 的帧率。后来换成里的 NPU 原生实现,同样模型直接飙到。

做数值计算那会,最让我头疼的是。Sin、Cos、Exp、Log 这些函数,要实现高精度,计算量就大;要快,精度就掉。CPU 上有 Intel MKL、ARM Performance Libraries,专门优化这些数学函数。昇腾NPU上呢?答案在。

做数值计算那会,最让我头疼的是。Sin、Cos、Exp、Log 这些函数,要实现高精度,计算量就大;要快,精度就掉。CPU 上有 Intel MKL、ARM Performance Libraries,专门优化这些数学函数。昇腾NPU上呢?答案在。








