logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

msadvisor - 分布式训练性能诊断利器

第一次跑 Llama-3-70B 分布式训练时,遇到:8张NPU利用率只有35%,通信时间占了60%。。按照建议优化后,训练速度提升了2.8倍。

文章图片
#分布式
【无标题】

工具先行:DevTools 是诊断的起点;UI 优化:const + RepaintBoundary + 减少 rebuild;列表与图片:固定高度、缓存、预加载;内存安全:及时释放 Stream/Timer;启动加速:延迟初始化 + 代码分割。性能优化不是一次性任务,而是持续迭代的过程。建议在每个 Sprint 结束时进行性能回归测试。

文章图片
#大数据
PaddlePaddle 模型迁移到昇腾NPU 实战指南

之前帮一个团队做 PaddlePaddle 模型迁移,他们用的是 PP-YOLOe 做目标检测,在 GPU 上跑得好好的,换成昇腾NPU 后直接报了一堆算子不支持的错误。,把 PaddlePaddle 的算子映射成昇腾CANN 的算子。

文章图片
#paddlepaddle#r语言#人工智能
PaddlePaddle 模型迁移到昇腾NPU 实战指南

之前帮一个团队做 PaddlePaddle 模型迁移,他们用的是 PP-YOLOe 做目标检测,在 GPU 上跑得好好的,换成昇腾NPU 后直接报了一堆算子不支持的错误。,把 PaddlePaddle 的算子映射成昇腾CANN 的算子。

文章图片
#paddlepaddle#r语言#人工智能
PaddlePaddle 模型迁移到昇腾NPU 实战指南

之前帮一个团队做 PaddlePaddle 模型迁移,他们用的是 PP-YOLOe 做目标检测,在 GPU 上跑得好好的,换成昇腾NPU 后直接报了一堆算子不支持的错误。,把 PaddlePaddle 的算子映射成昇腾CANN 的算子。

文章图片
#paddlepaddle#r语言#人工智能
PyTorch 模型迁移到昇腾NPU 完整指南

之前帮一个团队做 PyTorch 模型迁移,他们用的是 BERT-Large 做文本分类,在 GPU 上跑得好好的,换成昇腾NPU 后直接报了一堆算子不支持的错误。,把 PyTorch 的算子映射成昇腾CANN 的算子。

文章图片
#pytorch#人工智能#python
PyTorch 模型迁移到昇腾NPU 完整指南

之前帮一个团队做 PyTorch 模型迁移,他们用的是 BERT-Large 做文本分类,在 GPU 上跑得好好的,换成昇腾NPU 后直接报了一堆算子不支持的错误。,把 PyTorch 的算子映射成昇腾CANN 的算子。

文章图片
#pytorch#人工智能#python
PyTorch 模型迁移到昇腾NPU 完整指南

之前帮一个团队做 PyTorch 模型迁移,他们用的是 BERT-Large 做文本分类,在 GPU 上跑得好好的,换成昇腾NPU 后直接报了一堆算子不支持的错误。,把 PyTorch 的算子映射成昇腾CANN 的算子。

文章图片
#pytorch#人工智能#python
GE(图引擎)- 昇腾CANN的计算图优化核心

第一次看 GE(Graph Engine)的源码,最让我震撼的是:100+ 优化Pass,各种算子融合、内存复用、并行策略,光是配置文件就看得头晕。,负责把深度学习框架的计算图,优化成能在昇腾NPU上高效执行的图。

文章图片
#大数据
GE(图引擎)- 昇腾CANN的计算图优化核心

第一次看 GE(Graph Engine)的源码,最让我震撼的是:100+ 优化Pass,各种算子融合、内存复用、并行策略,光是配置文件就看得头晕。,负责把深度学习框架的计算图,优化成能在昇腾NPU上高效执行的图。

文章图片
#大数据
    共 51 条
  • 1
  • 2
  • 3
  • 6
  • 请选择