logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

小模型在昇腾NPU上的推理部署:【onnx转om失败问题定位思路】

在昇腾NPU上进行模型推理部署时,通常需要将训练框架导出的ONNX模型转换为昇腾专用的OM模型格式。然而,在实际的模型转换过程中,开发者经常会遇到ATC(Ascend Tensor Compiler)工具报错导致转换失败的情况。本文基于实际项目经验,系统总结了ONNX转OM失败的常见问题及定位思路,为开发者提供实用的排查指南。基础排查:首先检查错误码,排除工具使用问题深度调试:生成DEBUG日志和

文章图片
#人工智能#机器学习#计算机视觉 +2
小模型在昇腾NPU上的推理部署::【triton-server服务化部署sensevoice】

模型仓库的目录结构配置文件的详细解释(多输入多输出、动态形状)Python 后端服务端代码(基于ais_bench推理接口,支持动态形状)客户端调用示例(预处理、推理、后处理)Triton Server 启动命令注意:本文聚焦于服务化部署,其中预处理(FBank 提取)和后处理(CTC 解码)在客户端完成。您也可以将部分预处理/后处理移至 Triton Python 后端实现,具体取决于性能需求和

文章图片
#xcode#macos#ide
小模型在昇腾NPU上的推理部署::【triton-server服务化部署sensevoice】

模型仓库的目录结构配置文件的详细解释(多输入多输出、动态形状)Python 后端服务端代码(基于ais_bench推理接口,支持动态形状)客户端调用示例(预处理、推理、后处理)Triton Server 启动命令注意:本文聚焦于服务化部署,其中预处理(FBank 提取)和后处理(CTC 解码)在客户端完成。您也可以将部分预处理/后处理移至 Triton Python 后端实现,具体取决于性能需求和

文章图片
#xcode#macos#ide
小模型在昇腾NPU上的推理部署::【triton-server服务化部署sensevoice】

模型仓库的目录结构配置文件的详细解释(多输入多输出、动态形状)Python 后端服务端代码(基于ais_bench推理接口,支持动态形状)客户端调用示例(预处理、推理、后处理)Triton Server 启动命令注意:本文聚焦于服务化部署,其中预处理(FBank 提取)和后处理(CTC 解码)在客户端完成。您也可以将部分预处理/后处理移至 Triton Python 后端实现,具体取决于性能需求和

文章图片
#xcode#macos#ide
小模型在昇腾NPU上的推理部署:【伪精度案例】

伪精度案例:当余弦相似度为 1 时,算子就一定没问题吗?在模型转换(ONNX → OM)过程中,精度比对是验证模型正确性的关键环节。本文记录了一个典型的“伪精度”问题案例,供参考。在精度比对中,通常使用随机输入(如)生成测试数据,这会引入大量小数点后的微小差异。但在实际业务场景中,模型的输入是固定的、符合真实分布的,并不会出现这些极端边界情况。

文章图片
#人工智能#机器学习#图像处理 +2
小模型在昇腾NPU上的推理部署:【伪精度案例】

伪精度案例:当余弦相似度为 1 时,算子就一定没问题吗?在模型转换(ONNX → OM)过程中,精度比对是验证模型正确性的关键环节。本文记录了一个典型的“伪精度”问题案例,供参考。在精度比对中,通常使用随机输入(如)生成测试数据,这会引入大量小数点后的微小差异。但在实际业务场景中,模型的输入是固定的、符合真实分布的,并不会出现这些极端边界情况。

文章图片
#人工智能#机器学习#图像处理 +2
小模型在昇腾NPU上的推理部署:【伪精度案例】

伪精度案例:当余弦相似度为 1 时,算子就一定没问题吗?在模型转换(ONNX → OM)过程中,精度比对是验证模型正确性的关键环节。本文记录了一个典型的“伪精度”问题案例,供参考。在精度比对中,通常使用随机输入(如)生成测试数据,这会引入大量小数点后的微小差异。但在实际业务场景中,模型的输入是固定的、符合真实分布的,并不会出现这些极端边界情况。

文章图片
#人工智能#机器学习#图像处理 +2
小模型在昇腾NPU上的推理部署:【paddlex集成aisbench】

本文旨在解决开发者在昇腾NPU上使用PaddleX推理动态模型时遇到的问题:目前PaddleX暂不支持在NPU上直接推理动态模型。现有三种实现方式中,onnxruntime在CPU上推理支持动态模式,onnxruntime_cann在NPU上推理仅支持静态模式(也需要适配),而PaddleX虽支持推理om模型,但也仅限于静态模式。实际上,昇腾NPU具备推理动态om模型的能力,可通过昇腾的aisbe

文章图片
#人工智能#机器学习#目标检测 +1
小模型在昇腾NPU上的推理部署:【paddlex集成aisbench】

本文旨在解决开发者在昇腾NPU上使用PaddleX推理动态模型时遇到的问题:目前PaddleX暂不支持在NPU上直接推理动态模型。现有三种实现方式中,onnxruntime在CPU上推理支持动态模式,onnxruntime_cann在NPU上推理仅支持静态模式(也需要适配),而PaddleX虽支持推理om模型,但也仅限于静态模式。实际上,昇腾NPU具备推理动态om模型的能力,可通过昇腾的aisbe

文章图片
#人工智能#机器学习#目标检测 +1
小模型在昇腾NPU上的推理部署:【paddlex集成aisbench】

本文旨在解决开发者在昇腾NPU上使用PaddleX推理动态模型时遇到的问题:目前PaddleX暂不支持在NPU上直接推理动态模型。现有三种实现方式中,onnxruntime在CPU上推理支持动态模式,onnxruntime_cann在NPU上推理仅支持静态模式(也需要适配),而PaddleX虽支持推理om模型,但也仅限于静态模式。实际上,昇腾NPU具备推理动态om模型的能力,可通过昇腾的aisbe

文章图片
#人工智能#机器学习#目标检测 +1
    共 42 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择