2501_94138677 个人主页

@2501_94138677

2501_94138677

2025-11-27 19:46:20 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

昇腾 CANN ops-math broadcast 操作：多维张量广播的进阶用法

摘要：本文深入解析了深度学习中的broadcast机制及其在昇腾NPU上的优化策略。broadcast通过维度对齐规则在不复制数据的前提下扩展张量形状，但不当使用会导致显存暴涨。文章详细介绍了NumPy和PyTorch中的broadcast规则，并重点阐述了ops-math的惰性求值和显存复用技术，包括三种扩展模式选择。最后指出了常见误区，如频繁小维度broadcast、隐式broadcast操作

#人工智能

昇腾 CANN ops-math broadcast 操作：多维张量广播的进阶用法

#人工智能

昇腾CANN ops-transformer FlashAttention 优化：算子实现深度拆解

这篇文章探讨了昇腾NPU在多机训练中的通信效率优化问题。主要内容包括：多机训练瓶颈分析：指出通信（特别是AllReduce）在8卡训练中可能占用10-30%的时间，成为主要瓶颈。 HCCL通信原语详解：介绍了AllReduce、AllGather和Broadcast三种核心通信操作及其在PyTorch中的实现方式。网络拓扑影响：比较了Ring、Tree、DragonFly等不同拓扑结构的性能特

#transformer #深度学习 #人工智能

昇腾CANN ops-transformer FlashAttention 优化：算子实现深度拆解

#transformer #深度学习 #人工智能

昇腾CANN asc-devkit 工具链：从环境配置到第一个推理结果

本文详细介绍了在昇腾NPU上运行PyTorch模型的全流程，包括环境配置、模型转换和推理部署。主要内容：环境准备：检查硬件与软件版本对应关系，安装驱动和CANN工具包，配置环境变量。工具安装：使用pip安装asc-devkit工具链，建议创建conda隔离环境，安装PyTorch NPU版本。模型转换：从PyTorch导出ONNX模型使用asc-devkit或ATC命令行将ONNX转换为

#昇腾

昇腾CANN asc-devkit 工具链：从环境配置到第一个推理结果

#昇腾

昇腾CANN asc-devkit 工具链：从环境配置到第一个推理结果

#昇腾

昇腾CANN shmem 仓：NPU进程间共享内存零拷贝

本文介绍了昇腾CANNN的共享内存库shmem，用于解决多进程推理中的显存浪费问题。当多个进程加载相同模型权重时，传统方式会重复占用显存（如4个BERT进程占用6GB）。shmem通过Linux共享内存机制，将NPU显存映射到多个进程，实现权重共享（4进程仅占1.5GB）。文章详细拆解了shmem的实现原理：基于POSIX共享内存API，通过ioctl将NPU显存映射到共享内存区域，使多进程可零拷

#人工智能

昇腾CANN shmem 仓：NPU进程间共享内存零拷贝

#人工智能

昇腾CANN shmem 仓：NPU进程间共享内存零拷贝

#人工智能

共 113 条

请选择