logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

昇腾 CANN ops-math broadcast 操作:多维张量广播的进阶用法

摘要:本文深入解析了深度学习中的broadcast机制及其在昇腾NPU上的优化策略。broadcast通过维度对齐规则在不复制数据的前提下扩展张量形状,但不当使用会导致显存暴涨。文章详细介绍了NumPy和PyTorch中的broadcast规则,并重点阐述了ops-math的惰性求值和显存复用技术,包括三种扩展模式选择。最后指出了常见误区,如频繁小维度broadcast、隐式broadcast操作

文章图片
#人工智能
昇腾 CANN ops-math broadcast 操作:多维张量广播的进阶用法

摘要:本文深入解析了深度学习中的broadcast机制及其在昇腾NPU上的优化策略。broadcast通过维度对齐规则在不复制数据的前提下扩展张量形状,但不当使用会导致显存暴涨。文章详细介绍了NumPy和PyTorch中的broadcast规则,并重点阐述了ops-math的惰性求值和显存复用技术,包括三种扩展模式选择。最后指出了常见误区,如频繁小维度broadcast、隐式broadcast操作

文章图片
#人工智能
昇腾CANN ops-transformer FlashAttention 优化:算子实现深度拆解

这篇文章探讨了昇腾NPU在多机训练中的通信效率优化问题。主要内容包括: 多机训练瓶颈分析:指出通信(特别是AllReduce)在8卡训练中可能占用10-30%的时间,成为主要瓶颈。 HCCL通信原语详解:介绍了AllReduce、AllGather和Broadcast三种核心通信操作及其在PyTorch中的实现方式。 网络拓扑影响:比较了Ring、Tree、DragonFly等不同拓扑结构的性能特

文章图片
#transformer#深度学习#人工智能
昇腾CANN ops-transformer FlashAttention 优化:算子实现深度拆解

这篇文章探讨了昇腾NPU在多机训练中的通信效率优化问题。主要内容包括: 多机训练瓶颈分析:指出通信(特别是AllReduce)在8卡训练中可能占用10-30%的时间,成为主要瓶颈。 HCCL通信原语详解:介绍了AllReduce、AllGather和Broadcast三种核心通信操作及其在PyTorch中的实现方式。 网络拓扑影响:比较了Ring、Tree、DragonFly等不同拓扑结构的性能特

文章图片
#transformer#深度学习#人工智能
昇腾CANN asc-devkit 工具链:从环境配置到第一个推理结果

本文详细介绍了在昇腾NPU上运行PyTorch模型的全流程,包括环境配置、模型转换和推理部署。主要内容: 环境准备:检查硬件与软件版本对应关系,安装驱动和CANN工具包,配置环境变量。 工具安装:使用pip安装asc-devkit工具链,建议创建conda隔离环境,安装PyTorch NPU版本。 模型转换: 从PyTorch导出ONNX模型 使用asc-devkit或ATC命令行将ONNX转换为

文章图片
#昇腾
昇腾CANN asc-devkit 工具链:从环境配置到第一个推理结果

本文详细介绍了在昇腾NPU上运行PyTorch模型的全流程,包括环境配置、模型转换和推理部署。主要内容: 环境准备:检查硬件与软件版本对应关系,安装驱动和CANN工具包,配置环境变量。 工具安装:使用pip安装asc-devkit工具链,建议创建conda隔离环境,安装PyTorch NPU版本。 模型转换: 从PyTorch导出ONNX模型 使用asc-devkit或ATC命令行将ONNX转换为

文章图片
#昇腾
昇腾CANN asc-devkit 工具链:从环境配置到第一个推理结果

本文详细介绍了在昇腾NPU上运行PyTorch模型的全流程,包括环境配置、模型转换和推理部署。主要内容: 环境准备:检查硬件与软件版本对应关系,安装驱动和CANN工具包,配置环境变量。 工具安装:使用pip安装asc-devkit工具链,建议创建conda隔离环境,安装PyTorch NPU版本。 模型转换: 从PyTorch导出ONNX模型 使用asc-devkit或ATC命令行将ONNX转换为

文章图片
#昇腾
昇腾CANN shmem 仓:NPU进程间共享内存零拷贝

本文介绍了昇腾CANNN的共享内存库shmem,用于解决多进程推理中的显存浪费问题。当多个进程加载相同模型权重时,传统方式会重复占用显存(如4个BERT进程占用6GB)。shmem通过Linux共享内存机制,将NPU显存映射到多个进程,实现权重共享(4进程仅占1.5GB)。文章详细拆解了shmem的实现原理:基于POSIX共享内存API,通过ioctl将NPU显存映射到共享内存区域,使多进程可零拷

文章图片
#人工智能
昇腾CANN shmem 仓:NPU进程间共享内存零拷贝

本文介绍了昇腾CANNN的共享内存库shmem,用于解决多进程推理中的显存浪费问题。当多个进程加载相同模型权重时,传统方式会重复占用显存(如4个BERT进程占用6GB)。shmem通过Linux共享内存机制,将NPU显存映射到多个进程,实现权重共享(4进程仅占1.5GB)。文章详细拆解了shmem的实现原理:基于POSIX共享内存API,通过ioctl将NPU显存映射到共享内存区域,使多进程可零拷

文章图片
#人工智能
昇腾CANN shmem 仓:NPU进程间共享内存零拷贝

本文介绍了昇腾CANNN的共享内存库shmem,用于解决多进程推理中的显存浪费问题。当多个进程加载相同模型权重时,传统方式会重复占用显存(如4个BERT进程占用6GB)。shmem通过Linux共享内存机制,将NPU显存映射到多个进程,实现权重共享(4进程仅占1.5GB)。文章详细拆解了shmem的实现原理:基于POSIX共享内存API,通过ioctl将NPU显存映射到共享内存区域,使多进程可零拷

文章图片
#人工智能
    共 113 条
  • 1
  • 2
  • 3
  • 12
  • 请选择