logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

手把手用 torchtitan-npu 在昇腾NPU上跑大模型训练

torchtitan-npu = 昇腾NPU上的"一键训练脚本"。它把分布式训练、算子适配、显存优化全部做好,你只需要改配置、改数据,就能训练大模型。支持单机8卡、多机多卡、ZeRO、Gradient Checkpointing、混合精度。NVIDIA 能跑的训练,昇腾NPU 也能跑。

文章图片
#pytorch#人工智能#python
手把手用 torchtitan-npu 在昇腾NPU上跑大模型训练

torchtitan-npu = 昇腾NPU上的"一键训练脚本"。它把分布式训练、算子适配、显存优化全部做好,你只需要改配置、改数据,就能训练大模型。支持单机8卡、多机多卡、ZeRO、Gradient Checkpointing、混合精度。NVIDIA 能跑的训练,昇腾NPU 也能跑。

文章图片
#pytorch#人工智能#python
手把手用 torchtitan-npu 在昇腾NPU上跑大模型训练

torchtitan-npu = 昇腾NPU上的"一键训练脚本"。它把分布式训练、算子适配、显存优化全部做好,你只需要改配置、改数据,就能训练大模型。支持单机8卡、多机多卡、ZeRO、Gradient Checkpointing、混合精度。NVIDIA 能跑的训练,昇腾NPU 也能跑。

文章图片
#pytorch#人工智能#python
8卡训练为何加速仅3倍?HCCL通信优化揭秘

摘要:8卡昇腾910服务器训练LLaMA-2-7B时,加速比仅3倍而非理论8倍,主要瓶颈在于通信开销。昇腾的HCCL集合通信库通过三大设计优化通信:1)集合通信(AllReduce等操作)替代点对点通信;2)分层策略优先低延迟通道;3)拓扑感知自动选择最优算法(如Ring-AllReduce)。实际使用需注意将PyTorch后端设为"hccl",并通过梯度累加、混合精度通信等技

#算法
8卡训练为何加速仅3倍?HCCL通信优化揭秘

摘要:8卡昇腾910服务器训练LLaMA-2-7B时,加速比仅3倍而非理论8倍,主要瓶颈在于通信开销。昇腾的HCCL集合通信库通过三大设计优化通信:1)集合通信(AllReduce等操作)替代点对点通信;2)分层策略优先低延迟通道;3)拓扑感知自动选择最优算法(如Ring-AllReduce)。实际使用需注意将PyTorch后端设为"hccl",并通过梯度累加、混合精度通信等技

#算法
8卡训练为何加速仅3倍?HCCL通信优化揭秘

摘要:8卡昇腾910服务器训练LLaMA-2-7B时,加速比仅3倍而非理论8倍,主要瓶颈在于通信开销。昇腾的HCCL集合通信库通过三大设计优化通信:1)集合通信(AllReduce等操作)替代点对点通信;2)分层策略优先低延迟通道;3)拓扑感知自动选择最优算法(如Ring-AllReduce)。实际使用需注意将PyTorch后端设为"hccl",并通过梯度累加、混合精度通信等技

#算法
手把手移植 CUDA 算子到昇腾NPU:catlass 到底是个什么库?

Catlass是昇腾NPU专用的高性能矩阵乘法(GEMM)模板库,基于NVIDIA CUTLASS移植优化。它通过将计算逻辑与数据搬运分离、智能分块策略和多数据类型支持,帮助开发者在昇腾芯片上实现接近硬件极限的矩阵运算性能。适用于CUDA代码迁移、高性能融合算子开发等场景,性能可达cuBLAS的80-85%。相比ATB和ops-nn库,Catlass更适合需要精细控制GEMM分块策略的开发者。建议

#算法
手把手移植 CUDA 算子到昇腾NPU:catlass 到底是个什么库?

Catlass是昇腾NPU专用的高性能矩阵乘法(GEMM)模板库,基于NVIDIA CUTLASS移植优化。它通过将计算逻辑与数据搬运分离、智能分块策略和多数据类型支持,帮助开发者在昇腾芯片上实现接近硬件极限的矩阵运算性能。适用于CUDA代码迁移、高性能融合算子开发等场景,性能可达cuBLAS的80-85%。相比ATB和ops-nn库,Catlass更适合需要精细控制GEMM分块策略的开发者。建议

#算法
把FlashAttention装进昇腾NPU:为啥它能让大模型推理快3倍?

标准Attention太占显存。分块算、边算边扔、不存全局矩阵。在昇腾NPU上, ops-transformer 仓库里的 FlashAttention 算子,用Ascend CCube Core(矩阵乘法)Vector Core(逐元素操作)双缓冲(隐藏内存访问延迟)算子融合(省显存带宽)FlashAttention = 分块 + 在线Softmax + 重新排序。在昇腾NPU上, ops-tr

#算法
把FlashAttention装进昇腾NPU:为啥它能让大模型推理快3倍?

标准Attention太占显存。分块算、边算边扔、不存全局矩阵。在昇腾NPU上, ops-transformer 仓库里的 FlashAttention 算子,用Ascend CCube Core(矩阵乘法)Vector Core(逐元素操作)双缓冲(隐藏内存访问延迟)算子融合(省显存带宽)FlashAttention = 分块 + 在线Softmax + 重新排序。在昇腾NPU上, ops-tr

#算法
    共 38 条
  • 1
  • 2
  • 3
  • 4
  • 请选择