
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
第一次跑 Llama-3-70B 分布式训练时,遇到:8张NPU利用率只有35%,通信时间占了60%。。按照建议优化后,训练速度提升了2.8倍。

工具先行:DevTools 是诊断的起点;UI 优化:const + RepaintBoundary + 减少 rebuild;列表与图片:固定高度、缓存、预加载;内存安全:及时释放 Stream/Timer;启动加速:延迟初始化 + 代码分割。性能优化不是一次性任务,而是持续迭代的过程。建议在每个 Sprint 结束时进行性能回归测试。

之前帮一个团队做 PaddlePaddle 模型迁移,他们用的是 PP-YOLOe 做目标检测,在 GPU 上跑得好好的,换成昇腾NPU 后直接报了一堆算子不支持的错误。,把 PaddlePaddle 的算子映射成昇腾CANN 的算子。

之前帮一个团队做 PaddlePaddle 模型迁移,他们用的是 PP-YOLOe 做目标检测,在 GPU 上跑得好好的,换成昇腾NPU 后直接报了一堆算子不支持的错误。,把 PaddlePaddle 的算子映射成昇腾CANN 的算子。

之前帮一个团队做 PaddlePaddle 模型迁移,他们用的是 PP-YOLOe 做目标检测,在 GPU 上跑得好好的,换成昇腾NPU 后直接报了一堆算子不支持的错误。,把 PaddlePaddle 的算子映射成昇腾CANN 的算子。

之前帮一个团队做 PyTorch 模型迁移,他们用的是 BERT-Large 做文本分类,在 GPU 上跑得好好的,换成昇腾NPU 后直接报了一堆算子不支持的错误。,把 PyTorch 的算子映射成昇腾CANN 的算子。

之前帮一个团队做 PyTorch 模型迁移,他们用的是 BERT-Large 做文本分类,在 GPU 上跑得好好的,换成昇腾NPU 后直接报了一堆算子不支持的错误。,把 PyTorch 的算子映射成昇腾CANN 的算子。

之前帮一个团队做 PyTorch 模型迁移,他们用的是 BERT-Large 做文本分类,在 GPU 上跑得好好的,换成昇腾NPU 后直接报了一堆算子不支持的错误。,把 PyTorch 的算子映射成昇腾CANN 的算子。

第一次看 GE(Graph Engine)的源码,最让我震撼的是:100+ 优化Pass,各种算子融合、内存复用、并行策略,光是配置文件就看得头晕。,负责把深度学习框架的计算图,优化成能在昇腾NPU上高效执行的图。

第一次看 GE(Graph Engine)的源码,最让我震撼的是:100+ 优化Pass,各种算子融合、内存复用、并行策略,光是配置文件就看得头晕。,负责把深度学习框架的计算图,优化成能在昇腾NPU上高效执行的图。








