logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

写一个昇腾NPU上的算子有多难?Ascend C算子开发实战全拆解

摘要:自定义算子主要用于昇腾NPU标准算子库无法满足的三种场景:新激活函数/损失函数、算子融合优化和特殊数据排布。AscendC是专为达芬奇架构设计的类C编程语言,通过分块处理、UB内存管理和向量化指令实现高效计算。开发流程包括编写算子、编译注册和在PyTorch中调用,性能调优需关注分块大小、双缓冲、向量化加载和数学简化。建议优先使用标准算子,仅在必要时开发自定义算子。(149字)

文章图片
#c语言#开发语言
写一个昇腾NPU上的算子有多难?Ascend C算子开发实战全拆解

摘要:自定义算子主要用于昇腾NPU标准算子库无法满足的三种场景:新激活函数/损失函数、算子融合优化和特殊数据排布。AscendC是专为达芬奇架构设计的类C编程语言,通过分块处理、UB内存管理和向量化指令实现高效计算。开发流程包括编写算子、编译注册和在PyTorch中调用,性能调优需关注分块大小、双缓冲、向量化加载和数学简化。建议优先使用标准算子,仅在必要时开发自定义算子。(149字)

文章图片
#c语言#开发语言
Runtime运行时:昇腾NPU上的“大管家“,它到底在管什么

摘要:Runtime在昇腾NPU上扮演执行引擎角色,负责将GE优化后的计算图转换为可执行任务序列并调度到硬件执行。其核心工作包括:1)资源管理,处理显存分配、多任务抢占和泄漏问题;2)任务调度,通过Stream机制实现算子并行执行;3)执行协调,优化Host与Device间的数据搬运。在多卡训练中,Runtime还需处理梯度同步等分布式任务。通过日志、性能分析和显存监控工具可有效调试Runtime

文章图片
#算法#数据结构
Runtime运行时:昇腾NPU上的“大管家“,它到底在管什么

摘要:Runtime在昇腾NPU上扮演执行引擎角色,负责将GE优化后的计算图转换为可执行任务序列并调度到硬件执行。其核心工作包括:1)资源管理,处理显存分配、多任务抢占和泄漏问题;2)任务调度,通过Stream机制实现算子并行执行;3)执行协调,优化Host与Device间的数据搬运。在多卡训练中,Runtime还需处理梯度同步等分布式任务。通过日志、性能分析和显存监控工具可有效调试Runtime

文章图片
#算法#数据结构
hcomm:昇腾集群通信的底层原语

HCCL与hcomm构成昇腾分布式通信栈的两大核心组件,采用分层设计:HCCL负责高层集合通信算法(如AllReduce/AllGather的切分策略),hcomm实现底层Send/Recv原语。在LLaMA-70B训练中,140GB梯度通过Ring AllReduce优化为每卡35GB传输量,但通信仍占单步40%耗时。hcomm通过零拷贝技术省去Buffer搬运,将固定延迟降至10-15μs。推

文章图片
#交互#深度学习#性能优化
hcomm:昇腾集群通信的底层原语

HCCL与hcomm构成昇腾分布式通信栈的两大核心组件,采用分层设计:HCCL负责高层集合通信算法(如AllReduce/AllGather的切分策略),hcomm实现底层Send/Recv原语。在LLaMA-70B训练中,140GB梯度通过Ring AllReduce优化为每卡35GB传输量,但通信仍占单步40%耗时。hcomm通过零拷贝技术省去Buffer搬运,将固定延迟降至10-15μs。推

文章图片
#交互#深度学习#性能优化
CANN到底是什么?昇腾NPU上的“操作系统+发动机调校师“全拆解

CANN是昇腾NPU的软件栈,相当于CUDA+cuDNN+TensorRT的整合体,负责将AI模型高效运行在昇腾芯片上。它包含五层架构:AscendCL接口层、计算服务层(算子库)、编译层(图引擎GE)、执行层(Runtime)和基础驱动层。CANN的核心功能是模型翻译、执行调度和性能优化,比如动态图转静态图、算子融合等。开发者可通过PyTorch+torch_npu直接调用,或使用ATC工具生成

文章图片
#算法#数据结构
CANN到底是什么?昇腾NPU上的“操作系统+发动机调校师“全拆解

CANN是昇腾NPU的软件栈,相当于CUDA+cuDNN+TensorRT的整合体,负责将AI模型高效运行在昇腾芯片上。它包含五层架构:AscendCL接口层、计算服务层(算子库)、编译层(图引擎GE)、执行层(Runtime)和基础驱动层。CANN的核心功能是模型翻译、执行调度和性能优化,比如动态图转静态图、算子融合等。开发者可通过PyTorch+torch_npu直接调用,或使用ATC工具生成

文章图片
#算法#数据结构
CANN到底是什么?昇腾NPU上的“操作系统+发动机调校师“全拆解

CANN是昇腾NPU的软件栈,相当于CUDA+cuDNN+TensorRT的整合体,负责将AI模型高效运行在昇腾芯片上。它包含五层架构:AscendCL接口层、计算服务层(算子库)、编译层(图引擎GE)、执行层(Runtime)和基础驱动层。CANN的核心功能是模型翻译、执行调度和性能优化,比如动态图转静态图、算子融合等。开发者可通过PyTorch+torch_npu直接调用,或使用ATC工具生成

文章图片
#算法#数据结构
CANN到底是什么?昇腾NPU上的“操作系统+发动机调校师“全拆解

CANN是昇腾NPU的软件栈,相当于CUDA+cuDNN+TensorRT的整合体,负责将AI模型高效运行在昇腾芯片上。它包含五层架构:AscendCL接口层、计算服务层(算子库)、编译层(图引擎GE)、执行层(Runtime)和基础驱动层。CANN的核心功能是模型翻译、执行调度和性能优化,比如动态图转静态图、算子融合等。开发者可通过PyTorch+torch_npu直接调用,或使用ATC工具生成

文章图片
#算法#数据结构
    共 71 条
  • 1
  • 2
  • 3
  • 8
  • 请选择