Rannydown 个人主页

@2503_94138102

Rannydown

2025-11-18 23:19:55 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

昇腾CANN多机训练的性能命门：把HCCL的AllReduce吃透

HCCL是昇腾CANN里多机训练性能的关键。把AllReduce的拓扑选择（Ring vs Tree）、消息大小阈值、RoCE网络配置、通信和计算争用这几个点摸到清楚，多机训练的扩展效率能从50%提到85%以上。如果你正在做昇腾上的大模型多机训练，建议先把HCCL_DEBUG日志开出来，找到AllReduce的瓶颈点（拓扑？网络？争用？），再针对性地调。不要一上来就加NPU数量，扩展效率差的时候加

#harmonyos

昇腾CANN多机训练的性能命门：把HCCL的AllReduce吃透

#harmonyos

昇腾CANN多机训练的性能命门：把HCCL的AllReduce吃透

#harmonyos

昇腾CANN实战：从MatMul算子内存排布摸透ops-nn的性能玄机

MatMul 算子的性能不只取决于"算得快"，更取决于"数据搬得巧"。ops-nn 仓库里针对这个问题给了三条路：每次都转（训练友好）、权重预转（推理推荐）、融合算子（极致性能）。在昇腾NPU上做推理优化，把权重预转这一步做对，就能把 MatMul 的延迟压掉 60% 以上。还有一件事：内存排布格式（NZ、ND、NCHW 等）是昇腾CANN里最容易踩坑的地方之一。

#harmonyos

昇腾CANN实战：从MatMul算子内存排布摸透ops-nn的性能玄机

#harmonyos

昇腾CANN实战：FlashAttention 在昇腾NPU上的实现与性能调优

FlashAttention 在昇腾 NPU 上的实现和 GPU 版本的原理一致，但具体的分块策略、块大小选择、因果掩码优化都要针对昇腾达芬奇架构的存储层次来调整。ops-transformer 仓库已经把这些做了封装，通过 ATB 加速库在上层做进一步融合，能拿到不错的性能。从我的实测数据来看，在 Ascend 910 上把朴素的注意力计算换成 ops-transformer 的 FlashAt

#鸿蒙

昇腾CANN实战：FlashAttention 在昇腾NPU上的实现与性能调优

#鸿蒙

昇腾CANN：赋能AI应用的高性能计算架构深度解析

华为昇腾CANN架构是连接AI框架与昇腾芯片的关键中间层，通过对计算图的深度优化和软硬件协同设计，充分发挥芯片算力。其技术特性包括高性能算子库、自动算子开发工具和全栈性能调优能力，显著提升AI模型在昇腾平台的运行效率。典型应用流程涵盖模型转换、图优化、应用开发到部署执行，为开发者提供了从训练到推理的完整解决方案。作为昇腾AI生态的核心支撑，CANN将持续推动AI技术的商业化落地。

#人工智能 #架构

昇腾CANN：赋能AI应用的高性能计算架构深度解析

#人工智能 #架构

深入解析Ascend C：昇腾AI计算架构的核心编程模型

摘要：AscendC是华为昇腾AI架构的专用C语言扩展，提供多层次并行计算架构、高效内存管理和专用计算原语。其支持任务级、数据级和流水线并行，通过核函数编程模式和数据流范式实现高性能AI计算。配备完整工具链和优化库函数，适用于自定义算子开发、性能调优等场景。未来将持续优化编程模型和工具链，助力开发者在昇腾平台实现AI创新。

#c语言 #人工智能 #架构

共 17 条

请选择