
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
torchtitan-npu = 昇腾NPU上的"一键训练脚本"。它把分布式训练、算子适配、显存优化全部做好,你只需要改配置、改数据,就能训练大模型。支持单机8卡、多机多卡、ZeRO、Gradient Checkpointing、混合精度。NVIDIA 能跑的训练,昇腾NPU 也能跑。

torchtitan-npu = 昇腾NPU上的"一键训练脚本"。它把分布式训练、算子适配、显存优化全部做好,你只需要改配置、改数据,就能训练大模型。支持单机8卡、多机多卡、ZeRO、Gradient Checkpointing、混合精度。NVIDIA 能跑的训练,昇腾NPU 也能跑。

torchtitan-npu = 昇腾NPU上的"一键训练脚本"。它把分布式训练、算子适配、显存优化全部做好,你只需要改配置、改数据,就能训练大模型。支持单机8卡、多机多卡、ZeRO、Gradient Checkpointing、混合精度。NVIDIA 能跑的训练,昇腾NPU 也能跑。

摘要:8卡昇腾910服务器训练LLaMA-2-7B时,加速比仅3倍而非理论8倍,主要瓶颈在于通信开销。昇腾的HCCL集合通信库通过三大设计优化通信:1)集合通信(AllReduce等操作)替代点对点通信;2)分层策略优先低延迟通道;3)拓扑感知自动选择最优算法(如Ring-AllReduce)。实际使用需注意将PyTorch后端设为"hccl",并通过梯度累加、混合精度通信等技
摘要:8卡昇腾910服务器训练LLaMA-2-7B时,加速比仅3倍而非理论8倍,主要瓶颈在于通信开销。昇腾的HCCL集合通信库通过三大设计优化通信:1)集合通信(AllReduce等操作)替代点对点通信;2)分层策略优先低延迟通道;3)拓扑感知自动选择最优算法(如Ring-AllReduce)。实际使用需注意将PyTorch后端设为"hccl",并通过梯度累加、混合精度通信等技
摘要:8卡昇腾910服务器训练LLaMA-2-7B时,加速比仅3倍而非理论8倍,主要瓶颈在于通信开销。昇腾的HCCL集合通信库通过三大设计优化通信:1)集合通信(AllReduce等操作)替代点对点通信;2)分层策略优先低延迟通道;3)拓扑感知自动选择最优算法(如Ring-AllReduce)。实际使用需注意将PyTorch后端设为"hccl",并通过梯度累加、混合精度通信等技
Catlass是昇腾NPU专用的高性能矩阵乘法(GEMM)模板库,基于NVIDIA CUTLASS移植优化。它通过将计算逻辑与数据搬运分离、智能分块策略和多数据类型支持,帮助开发者在昇腾芯片上实现接近硬件极限的矩阵运算性能。适用于CUDA代码迁移、高性能融合算子开发等场景,性能可达cuBLAS的80-85%。相比ATB和ops-nn库,Catlass更适合需要精细控制GEMM分块策略的开发者。建议
Catlass是昇腾NPU专用的高性能矩阵乘法(GEMM)模板库,基于NVIDIA CUTLASS移植优化。它通过将计算逻辑与数据搬运分离、智能分块策略和多数据类型支持,帮助开发者在昇腾芯片上实现接近硬件极限的矩阵运算性能。适用于CUDA代码迁移、高性能融合算子开发等场景,性能可达cuBLAS的80-85%。相比ATB和ops-nn库,Catlass更适合需要精细控制GEMM分块策略的开发者。建议
标准Attention太占显存。分块算、边算边扔、不存全局矩阵。在昇腾NPU上, ops-transformer 仓库里的 FlashAttention 算子,用Ascend CCube Core(矩阵乘法)Vector Core(逐元素操作)双缓冲(隐藏内存访问延迟)算子融合(省显存带宽)FlashAttention = 分块 + 在线Softmax + 重新排序。在昇腾NPU上, ops-tr
标准Attention太占显存。分块算、边算边扔、不存全局矩阵。在昇腾NPU上, ops-transformer 仓库里的 FlashAttention 算子,用Ascend CCube Core(矩阵乘法)Vector Core(逐元素操作)双缓冲(隐藏内存访问延迟)算子融合(省显存带宽)FlashAttention = 分块 + 在线Softmax + 重新排序。在昇腾NPU上, ops-tr







