落日屿星辰个人主页

@2501_93773401

落日屿星辰

2025-11-25 23:32:21 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

msadvisor - 分布式训练性能诊断利器

第一次跑 Llama-3-70B 分布式训练时，遇到：8张NPU利用率只有35%，通信时间占了60%。。按照建议优化后，训练速度提升了2.8倍。

文章图片

【无标题】

工具先行：DevTools 是诊断的起点；UI 优化：const + RepaintBoundary + 减少 rebuild；列表与图片：固定高度、缓存、预加载；内存安全：及时释放 Stream/Timer；启动加速：延迟初始化 + 代码分割。性能优化不是一次性任务，而是持续迭代的过程。建议在每个 Sprint 结束时进行性能回归测试。

文章图片

PaddlePaddle 模型迁移到昇腾NPU 实战指南

之前帮一个团队做 PaddlePaddle 模型迁移，他们用的是 PP-YOLOe 做目标检测，在 GPU 上跑得好好的，换成昇腾NPU 后直接报了一堆算子不支持的错误。，把 PaddlePaddle 的算子映射成昇腾CANN 的算子。

文章图片

#paddlepaddle #r语言 #人工智能

PaddlePaddle 模型迁移到昇腾NPU 实战指南

之前帮一个团队做 PaddlePaddle 模型迁移，他们用的是 PP-YOLOe 做目标检测，在 GPU 上跑得好好的，换成昇腾NPU 后直接报了一堆算子不支持的错误。，把 PaddlePaddle 的算子映射成昇腾CANN 的算子。

文章图片

#paddlepaddle #r语言 #人工智能

PaddlePaddle 模型迁移到昇腾NPU 实战指南

之前帮一个团队做 PaddlePaddle 模型迁移，他们用的是 PP-YOLOe 做目标检测，在 GPU 上跑得好好的，换成昇腾NPU 后直接报了一堆算子不支持的错误。，把 PaddlePaddle 的算子映射成昇腾CANN 的算子。

文章图片

#paddlepaddle #r语言 #人工智能

PyTorch 模型迁移到昇腾NPU 完整指南

之前帮一个团队做 PyTorch 模型迁移，他们用的是 BERT-Large 做文本分类，在 GPU 上跑得好好的，换成昇腾NPU 后直接报了一堆算子不支持的错误。，把 PyTorch 的算子映射成昇腾CANN 的算子。

文章图片

#pytorch #人工智能 #python

PyTorch 模型迁移到昇腾NPU 完整指南

之前帮一个团队做 PyTorch 模型迁移，他们用的是 BERT-Large 做文本分类，在 GPU 上跑得好好的，换成昇腾NPU 后直接报了一堆算子不支持的错误。，把 PyTorch 的算子映射成昇腾CANN 的算子。

文章图片

#pytorch #人工智能 #python

PyTorch 模型迁移到昇腾NPU 完整指南

之前帮一个团队做 PyTorch 模型迁移，他们用的是 BERT-Large 做文本分类，在 GPU 上跑得好好的，换成昇腾NPU 后直接报了一堆算子不支持的错误。，把 PyTorch 的算子映射成昇腾CANN 的算子。

文章图片

#pytorch #人工智能 #python

GE（图引擎）- 昇腾CANN的计算图优化核心

第一次看 GE（Graph Engine）的源码，最让我震撼的是：100+ 优化Pass，各种算子融合、内存复用、并行策略，光是配置文件就看得头晕。，负责把深度学习框架的计算图，优化成能在昇腾NPU上高效执行的图。

文章图片

GE（图引擎）- 昇腾CANN的计算图优化核心

第一次看 GE（Graph Engine）的源码，最让我震撼的是：100+ 优化Pass，各种算子融合、内存复用、并行策略，光是配置文件就看得头晕。，负责把深度学习框架的计算图，优化成能在昇腾NPU上高效执行的图。

文章图片

共 51 条

1
2
3
6

请选择