logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

AOE 自动调优:让模型跑得更快

AOE(Auto Optimization Engine)是一种自动优化引擎,专注于搜索深度学习算子的最优执行参数。它支持两种调优模式:遗传算法(GA)模式适合深度优化(30-60分钟),强化学习(RL)模式适合快速迭代(5-15分钟)。AOE可优化tiling参数、循环展开、内存布局等实现细节,但不改变模型数学逻辑。实践表明,在ResNet50等模型上可获得35%的延迟提升。使用时需注意输入sh

文章图片
#开源#架构#分布式 +2
GE 图优化:从计算图到执行计划

本文介绍了GE(Graph Engine)在NPU计算图优化中的关键技术。主要内容包括:1)计算图的表示方式,展示PyTorch模型如何转换为GE内部结构;2)常量折叠优化,将编译时可计算的表达式提前计算;3)公共子表达式消除,避免重复计算;4)算子融合技术,将多个小算子合并减少显存访问;5)内存规划策略,分析tensor生命周期实现显存复用;6)算子调度机制,根据场景选择最优实现。这些优化技术能

文章图片
#架构#人工智能#java +1
HCCL 集合通信编程:多卡协同的正确姿势

本文介绍了昇腾HCCL分布式通信库的核心功能和使用方法。主要内容包括: HCCL初始化配置,支持多机多卡训练环境搭建 AllReduce操作实现全局梯度求和与同步 AllGather用于收集各卡数据并进行拼接 ReduceScatter实现数据分发 Broadcast同步模型权重 点对点通信支持Pipeline并行 文中提供了完整的代码示例,涵盖梯度同步、分布式矩阵计算、模型权重同步等典型场景,并

文章图片
#wpf#electron#flutter +2
HCCL 集合通信编程:多卡协同的正确姿势

本文介绍了昇腾HCCL分布式通信库的核心功能和使用方法。主要内容包括: HCCL初始化配置,支持多机多卡训练环境搭建 AllReduce操作实现全局梯度求和与同步 AllGather用于收集各卡数据并进行拼接 ReduceScatter实现数据分发 Broadcast同步模型权重 点对点通信支持Pipeline并行 文中提供了完整的代码示例,涵盖梯度同步、分布式矩阵计算、模型权重同步等典型场景,并

文章图片
#wpf#electron#flutter +2
HCCL 集合通信编程:多卡协同的正确姿势

本文介绍了昇腾HCCL分布式通信库的核心功能和使用方法。主要内容包括: HCCL初始化配置,支持多机多卡训练环境搭建 AllReduce操作实现全局梯度求和与同步 AllGather用于收集各卡数据并进行拼接 ReduceScatter实现数据分发 Broadcast同步模型权重 点对点通信支持Pipeline并行 文中提供了完整的代码示例,涵盖梯度同步、分布式矩阵计算、模型权重同步等典型场景,并

文章图片
#wpf#electron#flutter +2
ATC 编译:从 ONNX 到 .om 到底发生了什么

摘要:ATC工具将ONNX模型转换为昇腾专用的.om文件,主要流程包括:1)图解析(算子映射);2)图优化(算子融合、常量折叠等);3)内存规划(显存复用);4)算子选型(选择最优实现);5)代码生成(二进制指令打包)。关键参数如--op_precision_mode和--enable_fusion会影响性能与精度。编译失败通常因算子不支持,可通过算子拆分或自定义算子解决。生成的.om文件可直接加

文章图片
#人工智能#深度学习#算法
ATC 编译:从 ONNX 到 .om 到底发生了什么

摘要:ATC工具将ONNX模型转换为昇腾专用的.om文件,主要流程包括:1)图解析(算子映射);2)图优化(算子融合、常量折叠等);3)内存规划(显存复用);4)算子选型(选择最优实现);5)代码生成(二进制指令打包)。关键参数如--op_precision_mode和--enable_fusion会影响性能与精度。编译失败通常因算子不支持,可通过算子拆分或自定义算子解决。生成的.om文件可直接加

文章图片
#人工智能#深度学习#算法
ATC 编译:从 ONNX 到 .om 到底发生了什么

摘要:ATC工具将ONNX模型转换为昇腾专用的.om文件,主要流程包括:1)图解析(算子映射);2)图优化(算子融合、常量折叠等);3)内存规划(显存复用);4)算子选型(选择最优实现);5)代码生成(二进制指令打包)。关键参数如--op_precision_mode和--enable_fusion会影响性能与精度。编译失败通常因算子不支持,可通过算子拆分或自定义算子解决。生成的.om文件可直接加

文章图片
#人工智能#深度学习#算法
GE 怎么做算子融合

算子融合是提升推理性能的关键技术,通过合并相邻算子减少显存读写和内核启动开销。GE(Graph Engine)在编译阶段基于预定义模板进行融合,优先纵向融合再横向融合,覆盖CV/NLP常见算子组合。融合后调用预编译算子实现,不影响编译时间。GE会评估融合收益,避免寄存器超限或并行度下降。理论上不影响精度,但实际可能因精度转换产生微小差异。动态shape场景需编译多个子图,可能导致编译时间延长或部分

文章图片
#开源#架构#分布式 +1
从 cann-samples 上手:五个必看的示例

本文介绍了使用昇腾开发板/服务器时如何通过官方示例代码快速上手。重点推荐了cann-samples仓库中五个典型示例:ResNet50图像分类展示标准推理流程,BERT文本分类处理NLP特有输入,YOLOv5目标检测演示后处理,DeepFM推荐系统处理稀疏特征,以及CLIP多模态检索。这些示例覆盖CV、NLP、推荐系统等主流场景,具有可复现、版本对应等特点。建议先完整跑通示例,再逐步替换数据、模型

文章图片
#wpf#electron#flutter +2
    共 131 条
  • 1
  • 2
  • 3
  • 14
  • 请选择