logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

CANN ops-math 数学算子:精度与性能兼得的工程实践

刚拿到昇腾CANN的ops-math仓库时,最直观的感受是这个仓库覆盖面广——conversion、math、random三大类算子,几乎撑起了所有上层计算的基础。跑在昇腾NPU上的PyTorch模型,底层很大一部分数学运算都依赖这个仓库的算子实现。

文章图片
#vim#vscode
CANN ops-math 数学算子:精度与性能兼得的工程实践

刚拿到昇腾CANN的ops-math仓库时,最直观的感受是这个仓库覆盖面广——conversion、math、random三大类算子,几乎撑起了所有上层计算的基础。跑在昇腾NPU上的PyTorch模型,底层很大一部分数学运算都依赖这个仓库的算子实现。

文章图片
#vim#vscode
CANN ops-math 数学算子:精度与性能兼得的工程实践

刚拿到昇腾CANN的ops-math仓库时,最直观的感受是这个仓库覆盖面广——conversion、math、random三大类算子,几乎撑起了所有上层计算的基础。跑在昇腾NPU上的PyTorch模型,底层很大一部分数学运算都依赖这个仓库的算子实现。

文章图片
#vim#vscode
HCCL 集合通信:昇腾 NPU 分布式训练的通信引擎

第一次在昇腾 910 上跑千卡训练的时候,通信开销直接把算力优势全吃掉了。8 张卡训练 ResNet-50,epoch 时间比单机还慢——这不是卡的问题,是通信没跑通。

文章图片
#分布式#django#flask +1
HCCL 集合通信:昇腾 NPU 分布式训练的通信引擎

第一次在昇腾 910 上跑千卡训练的时候,通信开销直接把算力优势全吃掉了。8 张卡训练 ResNet-50,epoch 时间比单机还慢——这不是卡的问题,是通信没跑通。

文章图片
#分布式#django#flask +1
到底了