logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

昇腾CANN运行时系统架构剖析:设备管理与任务调度的核心机制深度解读

昇腾CANN作为昇腾异构计算架构,昇腾CANN作为昇腾异构计算架构,昇腾CANN作为昇腾异构计算架构,运行时系统Runtime是连接上层框架和底层硬件的关键桥梁。很多人用PyTorch写模型,调用npu()把张量放到NPU上,调用forward执行前向计算,但这些操作背后发生了什么?张量是怎么从CPU内存传到NPU内存的?计算任务是怎么提交给NPU执行的?多个任务是怎么调度的?这些问题的答案都在R

文章图片
昇腾CANN运行时系统架构剖析:设备管理与任务调度的核心机制深度解读

昇腾CANN作为昇腾异构计算架构,昇腾CANN作为昇腾异构计算架构,昇腾CANN作为昇腾异构计算架构,运行时系统Runtime是连接上层框架和底层硬件的关键桥梁。很多人用PyTorch写模型,调用npu()把张量放到NPU上,调用forward执行前向计算,但这些操作背后发生了什么?张量是怎么从CPU内存传到NPU内存的?计算任务是怎么提交给NPU执行的?多个任务是怎么调度的?这些问题的答案都在R

文章图片
昇腾CANN运行时系统架构剖析:设备管理与任务调度的核心机制深度解读

昇腾CANN作为昇腾异构计算架构,昇腾CANN作为昇腾异构计算架构,昇腾CANN作为昇腾异构计算架构,运行时系统Runtime是连接上层框架和底层硬件的关键桥梁。很多人用PyTorch写模型,调用npu()把张量放到NPU上,调用forward执行前向计算,但这些操作背后发生了什么?张量是怎么从CPU内存传到NPU内存的?计算任务是怎么提交给NPU执行的?多个任务是怎么调度的?这些问题的答案都在R

文章图片
昇腾CANN运行时系统架构剖析:设备管理与任务调度的核心机制深度解读

昇腾CANN作为昇腾异构计算架构,昇腾CANN作为昇腾异构计算架构,昇腾CANN作为昇腾异构计算架构,运行时系统Runtime是连接上层框架和底层硬件的关键桥梁。很多人用PyTorch写模型,调用npu()把张量放到NPU上,调用forward执行前向计算,但这些操作背后发生了什么?张量是怎么从CPU内存传到NPU内存的?计算任务是怎么提交给NPU执行的?多个任务是怎么调度的?这些问题的答案都在R

文章图片
昇腾CANN运行时系统架构剖析:设备管理与任务调度的核心机制深度解读

昇腾CANN作为昇腾异构计算架构,昇腾CANN作为昇腾异构计算架构,昇腾CANN作为昇腾异构计算架构,运行时系统Runtime是连接上层框架和底层硬件的关键桥梁。很多人用PyTorch写模型,调用npu()把张量放到NPU上,调用forward执行前向计算,但这些操作背后发生了什么?张量是怎么从CPU内存传到NPU内存的?计算任务是怎么提交给NPU执行的?多个任务是怎么调度的?这些问题的答案都在R

文章图片
昇腾CANN图引擎GE深度解析:算子融合与内存规划的架构设计原理与技术实现

昇腾CANN作为昇腾异构计算架构,昇腾CANN作为昇腾异构计算架构,昇腾CANN作为昇腾异构计算架构,图引擎GE可能是最核心但最容易被忽视的组件。很多人用PyTorch写模型,直接调用forward,以为这就是深度学习的全部。但实际上,你的PyTorch代码在执行之前,会经历一个复杂的编译过程:Python代码先转换成计算图,计算图经过一系列优化,最后生成NPU能执行的任务序列。GE就是这个编译过

文章图片
昇腾CANN图引擎GE深度解析:算子融合与内存规划的架构设计原理与技术实现

昇腾CANN作为昇腾异构计算架构,昇腾CANN作为昇腾异构计算架构,昇腾CANN作为昇腾异构计算架构,图引擎GE可能是最核心但最容易被忽视的组件。很多人用PyTorch写模型,直接调用forward,以为这就是深度学习的全部。但实际上,你的PyTorch代码在执行之前,会经历一个复杂的编译过程:Python代码先转换成计算图,计算图经过一系列优化,最后生成NPU能执行的任务序列。GE就是这个编译过

文章图片
昇腾CANN图引擎GE深度解析:算子融合与内存规划的架构设计原理与技术实现

昇腾CANN作为昇腾异构计算架构,昇腾CANN作为昇腾异构计算架构,昇腾CANN作为昇腾异构计算架构,图引擎GE可能是最核心但最容易被忽视的组件。很多人用PyTorch写模型,直接调用forward,以为这就是深度学习的全部。但实际上,你的PyTorch代码在执行之前,会经历一个复杂的编译过程:Python代码先转换成计算图,计算图经过一系列优化,最后生成NPU能执行的任务序列。GE就是这个编译过

文章图片
昇腾CANN图引擎GE深度解析:算子融合与内存规划的架构设计原理与技术实现

昇腾CANN作为昇腾异构计算架构,昇腾CANN作为昇腾异构计算架构,昇腾CANN作为昇腾异构计算架构,图引擎GE可能是最核心但最容易被忽视的组件。很多人用PyTorch写模型,直接调用forward,以为这就是深度学习的全部。但实际上,你的PyTorch代码在执行之前,会经历一个复杂的编译过程:Python代码先转换成计算图,计算图经过一系列优化,最后生成NPU能执行的任务序列。GE就是这个编译过

文章图片
昇腾CANN集合通信库HCCL架构解析:分布式训练通信原语与拓扑感知优化技术

昇腾CANN作为昇腾异构计算架构,昇腾CANN作为昇腾异构计算架构,分布式训练是它最重要的应用场景之一。当你从单卡训练扩展到多卡、多机训练时,第一个要面对的问题就是:梯度怎么同步?每个卡算出来的梯度要汇总,更新后的参数要广播,这些通信操作占用了大量的训练时间。如果通信不够快,多卡训练的加速比就上不去,甚至可能出现加卡反而变慢的情况。HCCL是昇腾CANN的集合通信库,对标NVIDIA的NCCL。

文章图片
    共 91 条
  • 1
  • 2
  • 3
  • 10
  • 请选择