logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

昇腾CANN多机训练的性能命门:把HCCL的AllReduce吃透

HCCL是昇腾CANN里多机训练性能的关键。把AllReduce的拓扑选择(Ring vs Tree)、消息大小阈值、RoCE网络配置、通信和计算争用这几个点摸到清楚,多机训练的扩展效率能从50%提到85%以上。如果你正在做昇腾上的大模型多机训练,建议先把HCCL_DEBUG日志开出来,找到AllReduce的瓶颈点(拓扑?网络?争用?),再针对性地调。不要一上来就加NPU数量,扩展效率差的时候加

文章图片
#harmonyos
昇腾CANN多机训练的性能命门:把HCCL的AllReduce吃透

HCCL是昇腾CANN里多机训练性能的关键。把AllReduce的拓扑选择(Ring vs Tree)、消息大小阈值、RoCE网络配置、通信和计算争用这几个点摸到清楚,多机训练的扩展效率能从50%提到85%以上。如果你正在做昇腾上的大模型多机训练,建议先把HCCL_DEBUG日志开出来,找到AllReduce的瓶颈点(拓扑?网络?争用?),再针对性地调。不要一上来就加NPU数量,扩展效率差的时候加

文章图片
#harmonyos
昇腾CANN多机训练的性能命门:把HCCL的AllReduce吃透

HCCL是昇腾CANN里多机训练性能的关键。把AllReduce的拓扑选择(Ring vs Tree)、消息大小阈值、RoCE网络配置、通信和计算争用这几个点摸到清楚,多机训练的扩展效率能从50%提到85%以上。如果你正在做昇腾上的大模型多机训练,建议先把HCCL_DEBUG日志开出来,找到AllReduce的瓶颈点(拓扑?网络?争用?),再针对性地调。不要一上来就加NPU数量,扩展效率差的时候加

文章图片
#harmonyos
昇腾CANN实战:从MatMul算子内存排布摸透ops-nn的性能玄机

MatMul 算子的性能不只取决于"算得快",更取决于"数据搬得巧"。ops-nn 仓库里针对这个问题给了三条路:每次都转(训练友好)、权重预转(推理推荐)、融合算子(极致性能)。在昇腾NPU上做推理优化,把权重预转这一步做对,就能把 MatMul 的延迟压掉 60% 以上。还有一件事:内存排布格式(NZ、ND、NCHW 等)是昇腾CANN里最容易踩坑的地方之一。

文章图片
#harmonyos
昇腾CANN实战:从MatMul算子内存排布摸透ops-nn的性能玄机

MatMul 算子的性能不只取决于"算得快",更取决于"数据搬得巧"。ops-nn 仓库里针对这个问题给了三条路:每次都转(训练友好)、权重预转(推理推荐)、融合算子(极致性能)。在昇腾NPU上做推理优化,把权重预转这一步做对,就能把 MatMul 的延迟压掉 60% 以上。还有一件事:内存排布格式(NZ、ND、NCHW 等)是昇腾CANN里最容易踩坑的地方之一。

文章图片
#harmonyos
昇腾CANN实战:FlashAttention 在昇腾NPU上的实现与性能调优

FlashAttention 在昇腾 NPU 上的实现和 GPU 版本的原理一致,但具体的分块策略、块大小选择、因果掩码优化都要针对昇腾达芬奇架构的存储层次来调整。ops-transformer 仓库已经把这些做了封装,通过 ATB 加速库在上层做进一步融合,能拿到不错的性能。从我的实测数据来看,在 Ascend 910 上把朴素的注意力计算换成 ops-transformer 的 FlashAt

文章图片
#鸿蒙
昇腾CANN实战:FlashAttention 在昇腾NPU上的实现与性能调优

FlashAttention 在昇腾 NPU 上的实现和 GPU 版本的原理一致,但具体的分块策略、块大小选择、因果掩码优化都要针对昇腾达芬奇架构的存储层次来调整。ops-transformer 仓库已经把这些做了封装,通过 ATB 加速库在上层做进一步融合,能拿到不错的性能。从我的实测数据来看,在 Ascend 910 上把朴素的注意力计算换成 ops-transformer 的 FlashAt

文章图片
#鸿蒙
昇腾CANN:赋能AI应用的高性能计算架构深度解析

华为昇腾CANN架构是连接AI框架与昇腾芯片的关键中间层,通过对计算图的深度优化和软硬件协同设计,充分发挥芯片算力。其技术特性包括高性能算子库、自动算子开发工具和全栈性能调优能力,显著提升AI模型在昇腾平台的运行效率。典型应用流程涵盖模型转换、图优化、应用开发到部署执行,为开发者提供了从训练到推理的完整解决方案。作为昇腾AI生态的核心支撑,CANN将持续推动AI技术的商业化落地。

#人工智能#架构
昇腾CANN:赋能AI应用的高性能计算架构深度解析

华为昇腾CANN架构是连接AI框架与昇腾芯片的关键中间层,通过对计算图的深度优化和软硬件协同设计,充分发挥芯片算力。其技术特性包括高性能算子库、自动算子开发工具和全栈性能调优能力,显著提升AI模型在昇腾平台的运行效率。典型应用流程涵盖模型转换、图优化、应用开发到部署执行,为开发者提供了从训练到推理的完整解决方案。作为昇腾AI生态的核心支撑,CANN将持续推动AI技术的商业化落地。

#人工智能#架构
深入解析Ascend C:昇腾AI计算架构的核心编程模型

摘要:AscendC是华为昇腾AI架构的专用C语言扩展,提供多层次并行计算架构、高效内存管理和专用计算原语。其支持任务级、数据级和流水线并行,通过核函数编程模式和数据流范式实现高性能AI计算。配备完整工具链和优化库函数,适用于自定义算子开发、性能调优等场景。未来将持续优化编程模型和工具链,助力开发者在昇腾平台实现AI创新。

#c语言#人工智能#架构
    共 17 条
  • 1
  • 2
  • 请选择