logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

算子融合进阶:解决多层 MLP 的冗余访存瓶颈

在metadef中,算子被定义及其属性(如数据类型、维度)被记录。融合的发生通常依赖于数据流分析和模式匹配。数据流分析:编译器会分析相邻算子之间的数据依赖关系。如果一个算子的输出是另一个算子的输入,并且它们之间没有其他不兼容的操作(例如,数据类型转换、需要全局同步的操作),则可能发生融合。模式匹配:CANN 编译器栈中存在一系列优化 Pass,它们会在图优化阶段(Graph Optimizatio

#算法#harmonyos#git
基于 cann-ops-adv 的稀疏算子加速方案深度解析

基于仓库的稀疏算子加速方案,是昇腾CANN生态中实现高性能AI推理和训练的关键组成部分。通过深入理解昇腾硬件的并行架构,并利用中提供的、针对稀疏数据结构优化的底层内核,我们可以有效地克服稀疏计算中随机访存和低计算密度带来的挑战。要充分利用这些先进的加速能力,开发者需要密切关注 CANN 社区的最新进展,特别是CANN 组织中的代码更新和新的高级算子实现。随着模型稀疏化趋势的加剧,对中稀疏算子内核的

#算法#harmonyos#git
基于 cann-ops-adv 的稀疏算子加速方案深度解析

基于仓库的稀疏算子加速方案,是昇腾CANN生态中实现高性能AI推理和训练的关键组成部分。通过深入理解昇腾硬件的并行架构,并利用中提供的、针对稀疏数据结构优化的底层内核,我们可以有效地克服稀疏计算中随机访存和低计算密度带来的挑战。要充分利用这些先进的加速能力,开发者需要密切关注 CANN 社区的最新进展,特别是CANN 组织中的代码更新和新的高级算子实现。随着模型稀疏化趋势的加剧,对中稀疏算子内核的

#算法#harmonyos#git
基于 cann-ops-adv 的稀疏算子加速方案深度解析

基于仓库的稀疏算子加速方案,是昇腾CANN生态中实现高性能AI推理和训练的关键组成部分。通过深入理解昇腾硬件的并行架构,并利用中提供的、针对稀疏数据结构优化的底层内核,我们可以有效地克服稀疏计算中随机访存和低计算密度带来的挑战。要充分利用这些先进的加速能力,开发者需要密切关注 CANN 社区的最新进展,特别是CANN 组织中的代码更新和新的高级算子实现。随着模型稀疏化趋势的加剧,对中稀疏算子内核的

#算法#harmonyos#git
集合通信算子性能评测:如何测量 HCCL 真实的通信时延

测量 HCCL 的真实通信时延是一个系统性的工程,它要求我们从传统的 CPU 侧测量转向深入的 Device 侧同步和硬件事件分析。通过精细地利用 Ascend 架构提供的设备时钟或依赖于成熟的 Profiler 工具,我们可以绕过 CPU 封装和 Host 拷贝的干扰,获取到网络传输的真实延迟。对hccl 仓库的深入理解,结合CANN 组织提供的底层接口,是实现高性能分布式训练优化的基石。

#算法#harmonyos
CANN 3D 卷积算子性能优化:面向医学影像处理的加速实践

3D卷积算子是医学影像深度学习模型中的性能瓶颈。通过深入理解昇腾CANN的底层架构,特别是其在和仓库中提供的算子实现机制,我们可以针对性地进行性能优化。成功的加速实践依赖于对数据布局的精确控制、高效的内存访问模式设计以及对AI Core计算特性的充分利用。作为资深架构师,我们应持续关注CANN开源社区的最新进展,以确保在处理复杂、高维的医学影像数据时,能够最大限度地发挥昇腾AI处理器的计算潜力。

#性能优化
CANN 3D 卷积算子性能优化:面向医学影像处理的加速实践

3D卷积算子是医学影像深度学习模型中的性能瓶颈。通过深入理解昇腾CANN的底层架构,特别是其在和仓库中提供的算子实现机制,我们可以针对性地进行性能优化。成功的加速实践依赖于对数据布局的精确控制、高效的内存访问模式设计以及对AI Core计算特性的充分利用。作为资深架构师,我们应持续关注CANN开源社区的最新进展,以确保在处理复杂、高维的医学影像数据时,能够最大限度地发挥昇腾AI处理器的计算潜力。

#性能优化
CANN 3D 卷积算子性能优化:面向医学影像处理的加速实践

3D卷积算子是医学影像深度学习模型中的性能瓶颈。通过深入理解昇腾CANN的底层架构,特别是其在和仓库中提供的算子实现机制,我们可以针对性地进行性能优化。成功的加速实践依赖于对数据布局的精确控制、高效的内存访问模式设计以及对AI Core计算特性的充分利用。作为资深架构师,我们应持续关注CANN开源社区的最新进展,以确保在处理复杂、高维的医学影像数据时,能够最大限度地发挥昇腾AI处理器的计算潜力。

#性能优化
算子开发中的 Tile 策略:基于昇腾 L1/L2 缓存的访存优化

算子开发中的 Tile 策略是实现昇腾 AI 处理器高性能的关键。它本质上是对内存层次结构的一次精细化调度,旨在最大化 L1/L2 缓存的命中率和数据重用率。通过对ops-nn等开源仓库中算子实现的分析,我们可以看到,成功的 Tile 策略需要精确计算 L1 和 L2 的容量限制,并设计出与 AI Core 计算模式完美匹配的循环结构和数据加载顺序。掌握 L1/L2 缓存的访存优化,是每一位资深昇

#缓存
算子开发中的 Tile 策略:基于昇腾 L1/L2 缓存的访存优化

算子开发中的 Tile 策略是实现昇腾 AI 处理器高性能的关键。它本质上是对内存层次结构的一次精细化调度,旨在最大化 L1/L2 缓存的命中率和数据重用率。通过对ops-nn等开源仓库中算子实现的分析,我们可以看到,成功的 Tile 策略需要精确计算 L1 和 L2 的容量限制,并设计出与 AI Core 计算模式完美匹配的循环结构和数据加载顺序。掌握 L1/L2 缓存的访存优化,是每一位资深昇

#缓存
    共 86 条
  • 1
  • 2
  • 3
  • 9
  • 请选择