
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
摘要:本文深入解析了深度学习中的broadcast机制及其在昇腾NPU上的优化策略。broadcast通过维度对齐规则在不复制数据的前提下扩展张量形状,但不当使用会导致显存暴涨。文章详细介绍了NumPy和PyTorch中的broadcast规则,并重点阐述了ops-math的惰性求值和显存复用技术,包括三种扩展模式选择。最后指出了常见误区,如频繁小维度broadcast、隐式broadcast操作

摘要:本文深入解析了深度学习中的broadcast机制及其在昇腾NPU上的优化策略。broadcast通过维度对齐规则在不复制数据的前提下扩展张量形状,但不当使用会导致显存暴涨。文章详细介绍了NumPy和PyTorch中的broadcast规则,并重点阐述了ops-math的惰性求值和显存复用技术,包括三种扩展模式选择。最后指出了常见误区,如频繁小维度broadcast、隐式broadcast操作

这篇文章探讨了昇腾NPU在多机训练中的通信效率优化问题。主要内容包括: 多机训练瓶颈分析:指出通信(特别是AllReduce)在8卡训练中可能占用10-30%的时间,成为主要瓶颈。 HCCL通信原语详解:介绍了AllReduce、AllGather和Broadcast三种核心通信操作及其在PyTorch中的实现方式。 网络拓扑影响:比较了Ring、Tree、DragonFly等不同拓扑结构的性能特

这篇文章探讨了昇腾NPU在多机训练中的通信效率优化问题。主要内容包括: 多机训练瓶颈分析:指出通信(特别是AllReduce)在8卡训练中可能占用10-30%的时间,成为主要瓶颈。 HCCL通信原语详解:介绍了AllReduce、AllGather和Broadcast三种核心通信操作及其在PyTorch中的实现方式。 网络拓扑影响:比较了Ring、Tree、DragonFly等不同拓扑结构的性能特

本文详细介绍了在昇腾NPU上运行PyTorch模型的全流程,包括环境配置、模型转换和推理部署。主要内容: 环境准备:检查硬件与软件版本对应关系,安装驱动和CANN工具包,配置环境变量。 工具安装:使用pip安装asc-devkit工具链,建议创建conda隔离环境,安装PyTorch NPU版本。 模型转换: 从PyTorch导出ONNX模型 使用asc-devkit或ATC命令行将ONNX转换为

本文详细介绍了在昇腾NPU上运行PyTorch模型的全流程,包括环境配置、模型转换和推理部署。主要内容: 环境准备:检查硬件与软件版本对应关系,安装驱动和CANN工具包,配置环境变量。 工具安装:使用pip安装asc-devkit工具链,建议创建conda隔离环境,安装PyTorch NPU版本。 模型转换: 从PyTorch导出ONNX模型 使用asc-devkit或ATC命令行将ONNX转换为

本文详细介绍了在昇腾NPU上运行PyTorch模型的全流程,包括环境配置、模型转换和推理部署。主要内容: 环境准备:检查硬件与软件版本对应关系,安装驱动和CANN工具包,配置环境变量。 工具安装:使用pip安装asc-devkit工具链,建议创建conda隔离环境,安装PyTorch NPU版本。 模型转换: 从PyTorch导出ONNX模型 使用asc-devkit或ATC命令行将ONNX转换为

本文介绍了昇腾CANNN的共享内存库shmem,用于解决多进程推理中的显存浪费问题。当多个进程加载相同模型权重时,传统方式会重复占用显存(如4个BERT进程占用6GB)。shmem通过Linux共享内存机制,将NPU显存映射到多个进程,实现权重共享(4进程仅占1.5GB)。文章详细拆解了shmem的实现原理:基于POSIX共享内存API,通过ioctl将NPU显存映射到共享内存区域,使多进程可零拷

本文介绍了昇腾CANNN的共享内存库shmem,用于解决多进程推理中的显存浪费问题。当多个进程加载相同模型权重时,传统方式会重复占用显存(如4个BERT进程占用6GB)。shmem通过Linux共享内存机制,将NPU显存映射到多个进程,实现权重共享(4进程仅占1.5GB)。文章详细拆解了shmem的实现原理:基于POSIX共享内存API,通过ioctl将NPU显存映射到共享内存区域,使多进程可零拷

本文介绍了昇腾CANNN的共享内存库shmem,用于解决多进程推理中的显存浪费问题。当多个进程加载相同模型权重时,传统方式会重复占用显存(如4个BERT进程占用6GB)。shmem通过Linux共享内存机制,将NPU显存映射到多个进程,实现权重共享(4进程仅占1.5GB)。文章详细拆解了shmem的实现原理:基于POSIX共享内存API,通过ioctl将NPU显存映射到共享内存区域,使多进程可零拷








