怜生何怨个人主页

@2501_93738315

怜生何怨

2025-11-19 23:56:23 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

手把手用 torchtitan-npu 在昇腾NPU上跑大模型训练

torchtitan-npu = 昇腾NPU上的"一键训练脚本"。它把分布式训练、算子适配、显存优化全部做好，你只需要改配置、改数据，就能训练大模型。支持单机8卡、多机多卡、ZeRO、Gradient Checkpointing、混合精度。NVIDIA 能跑的训练，昇腾NPU 也能跑。

#pytorch #人工智能 #python

手把手用 torchtitan-npu 在昇腾NPU上跑大模型训练

#pytorch #人工智能 #python

手把手用 torchtitan-npu 在昇腾NPU上跑大模型训练

#pytorch #人工智能 #python

8卡训练为何加速仅3倍？HCCL通信优化揭秘

摘要：8卡昇腾910服务器训练LLaMA-2-7B时，加速比仅3倍而非理论8倍，主要瓶颈在于通信开销。昇腾的HCCL集合通信库通过三大设计优化通信：1）集合通信（AllReduce等操作）替代点对点通信；2）分层策略优先低延迟通道；3）拓扑感知自动选择最优算法（如Ring-AllReduce）。实际使用需注意将PyTorch后端设为"hccl"，并通过梯度累加、混合精度通信等技

#算法

8卡训练为何加速仅3倍？HCCL通信优化揭秘

#算法

8卡训练为何加速仅3倍？HCCL通信优化揭秘

#算法

手把手移植 CUDA 算子到昇腾NPU：catlass 到底是个什么库？

Catlass是昇腾NPU专用的高性能矩阵乘法(GEMM)模板库，基于NVIDIA CUTLASS移植优化。它通过将计算逻辑与数据搬运分离、智能分块策略和多数据类型支持，帮助开发者在昇腾芯片上实现接近硬件极限的矩阵运算性能。适用于CUDA代码迁移、高性能融合算子开发等场景，性能可达cuBLAS的80-85%。相比ATB和ops-nn库，Catlass更适合需要精细控制GEMM分块策略的开发者。建议

#算法

手把手移植 CUDA 算子到昇腾NPU：catlass 到底是个什么库？

#算法

把FlashAttention装进昇腾NPU：为啥它能让大模型推理快3倍？

标准Attention太占显存。分块算、边算边扔、不存全局矩阵。在昇腾NPU上， ops-transformer 仓库里的 FlashAttention 算子，用Ascend CCube Core（矩阵乘法）Vector Core（逐元素操作）双缓冲（隐藏内存访问延迟）算子融合（省显存带宽）FlashAttention = 分块 + 在线Softmax + 重新排序。在昇腾NPU上， ops-tr

#算法

把FlashAttention装进昇腾NPU：为啥它能让大模型推理快3倍？

#算法

共 38 条

请选择