
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
AOE(Auto Optimization Engine)是一种自动优化引擎,专注于搜索深度学习算子的最优执行参数。它支持两种调优模式:遗传算法(GA)模式适合深度优化(30-60分钟),强化学习(RL)模式适合快速迭代(5-15分钟)。AOE可优化tiling参数、循环展开、内存布局等实现细节,但不改变模型数学逻辑。实践表明,在ResNet50等模型上可获得35%的延迟提升。使用时需注意输入sh

本文介绍了GE(Graph Engine)在NPU计算图优化中的关键技术。主要内容包括:1)计算图的表示方式,展示PyTorch模型如何转换为GE内部结构;2)常量折叠优化,将编译时可计算的表达式提前计算;3)公共子表达式消除,避免重复计算;4)算子融合技术,将多个小算子合并减少显存访问;5)内存规划策略,分析tensor生命周期实现显存复用;6)算子调度机制,根据场景选择最优实现。这些优化技术能

本文介绍了昇腾HCCL分布式通信库的核心功能和使用方法。主要内容包括: HCCL初始化配置,支持多机多卡训练环境搭建 AllReduce操作实现全局梯度求和与同步 AllGather用于收集各卡数据并进行拼接 ReduceScatter实现数据分发 Broadcast同步模型权重 点对点通信支持Pipeline并行 文中提供了完整的代码示例,涵盖梯度同步、分布式矩阵计算、模型权重同步等典型场景,并

本文介绍了昇腾HCCL分布式通信库的核心功能和使用方法。主要内容包括: HCCL初始化配置,支持多机多卡训练环境搭建 AllReduce操作实现全局梯度求和与同步 AllGather用于收集各卡数据并进行拼接 ReduceScatter实现数据分发 Broadcast同步模型权重 点对点通信支持Pipeline并行 文中提供了完整的代码示例,涵盖梯度同步、分布式矩阵计算、模型权重同步等典型场景,并

本文介绍了昇腾HCCL分布式通信库的核心功能和使用方法。主要内容包括: HCCL初始化配置,支持多机多卡训练环境搭建 AllReduce操作实现全局梯度求和与同步 AllGather用于收集各卡数据并进行拼接 ReduceScatter实现数据分发 Broadcast同步模型权重 点对点通信支持Pipeline并行 文中提供了完整的代码示例,涵盖梯度同步、分布式矩阵计算、模型权重同步等典型场景,并

摘要:ATC工具将ONNX模型转换为昇腾专用的.om文件,主要流程包括:1)图解析(算子映射);2)图优化(算子融合、常量折叠等);3)内存规划(显存复用);4)算子选型(选择最优实现);5)代码生成(二进制指令打包)。关键参数如--op_precision_mode和--enable_fusion会影响性能与精度。编译失败通常因算子不支持,可通过算子拆分或自定义算子解决。生成的.om文件可直接加

摘要:ATC工具将ONNX模型转换为昇腾专用的.om文件,主要流程包括:1)图解析(算子映射);2)图优化(算子融合、常量折叠等);3)内存规划(显存复用);4)算子选型(选择最优实现);5)代码生成(二进制指令打包)。关键参数如--op_precision_mode和--enable_fusion会影响性能与精度。编译失败通常因算子不支持,可通过算子拆分或自定义算子解决。生成的.om文件可直接加

摘要:ATC工具将ONNX模型转换为昇腾专用的.om文件,主要流程包括:1)图解析(算子映射);2)图优化(算子融合、常量折叠等);3)内存规划(显存复用);4)算子选型(选择最优实现);5)代码生成(二进制指令打包)。关键参数如--op_precision_mode和--enable_fusion会影响性能与精度。编译失败通常因算子不支持,可通过算子拆分或自定义算子解决。生成的.om文件可直接加

算子融合是提升推理性能的关键技术,通过合并相邻算子减少显存读写和内核启动开销。GE(Graph Engine)在编译阶段基于预定义模板进行融合,优先纵向融合再横向融合,覆盖CV/NLP常见算子组合。融合后调用预编译算子实现,不影响编译时间。GE会评估融合收益,避免寄存器超限或并行度下降。理论上不影响精度,但实际可能因精度转换产生微小差异。动态shape场景需编译多个子图,可能导致编译时间延长或部分

本文介绍了使用昇腾开发板/服务器时如何通过官方示例代码快速上手。重点推荐了cann-samples仓库中五个典型示例:ResNet50图像分类展示标准推理流程,BERT文本分类处理NLP特有输入,YOLOv5目标检测演示后处理,DeepFM推荐系统处理稀疏特征,以及CLIP多模态检索。这些示例覆盖CV、NLP、推荐系统等主流场景,具有可复现、版本对应等特点。建议先完整跑通示例,再逐步替换数据、模型








