logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

解决模型工程化后推理总是输出nan值的问题

摘要:在多模态模型工程化部署过程中,遇到TensorRT推理输出NaN的问题。经排查发现,问题根源在于averagepool和sigmoid算子导致的数值溢出。通过采用clamp限制数值范围、用HardSigmoid替代Sigmoid等方法进行优化后,模型成功转换为TensorRT引擎并输出正常结果。该案例揭示了多模态模型特征融合模块中数值稳定性对部署的重要性,提供了针对浮点溢出的有效解决方案。

报错invalid argument cudaErrorInvalidValue时真的是报错处调用的CUDA函数的出入参数有问题吗?

这里的错误导致分配CUDA内存的大小不对,导致后面给这块CUDA内存拷贝赋值时发生了越界访问从而把CUDA内存搞脏了,然后错误就发生在前面那个核函数调用的地方。CUDA内存弄脏后再访问CUDA内存会出错,但是报的错一般是让你根本无法看出准确原因的,出现莫名其妙的错误时,可能需要整个排查而不是只盯着出错处查,否则可能折腾很久浪费时间还是不知道原因在哪里。有时忘了这个经验浪费不少时间,记录一下备忘。

我的AI之路(26)--使用ROSBridge WebSocket和roslibjs构建一个简单的控制机器人的web demo

在一个复杂的机器人后端控制平台系统开发完成以前,往往需要对你的机器人产品进行简单的软件架构设计验证或进行控制测试,这时,如果能花比较少的时间快速做一个web页面或者一个Android app来作此用途的话能节省不少人力,本人花比较少的时间做了一个web demo和几个安卓app用于不同机器人的通讯和控制的验证和测试,先只说怎么做web demo,实现安卓app的思路跟基于Java EE开...

#AI
NVIDIA Jetson板子上安装nvidia docker需要注意的问题

一般来说,使用NVIDIA官网上下载的sdk image烧写入SD卡或者使用sdk manager/jet package连到板子安装全部软件后,里面什么都有了,包括docker和nvidia docker里面都有了,使用nvidia docker可以把GPU用起来,但是如果误删或者不小心弄坏了docker,或者为了减少发布系统的image的大小,尽量减少不需要安装的软件包,比如想从最基本的Bas

#docker
安装好Tensorflow后执行import tensorflow时出现Illegal instruction (core dumped) 的原因和解决办法

安装好Tensorflow2.x后执行import tensorflow时报错并崩溃:Illegal instruction (core dumped),原因一般是安装Tensorflow的机器的CPU不支持或者不完全支持AVX指令造成的,Tensorflow从1.6版开始加入了针对CPU指令的优化,使用pip命令安装的官方编译的whl安装包估计是在支持AVX指令的服务器上编译出来的,是默认需要C

#tensorflow#人工智能#conda +1
opencv-python/opencv/modules/highgui/src/window.cpp:1340: error The function is not implemented

Ubuntu里执行带窗口的opencv python代码时遇到下面这样的错误:Traceback (most recent call last):File "main.py", line 34, in <module>while cv.waitKey(1) < 0:cv2.error: OpenCV(4.5.3) /tmp/pip-build-u6khojk_/opencv-py

#opencv#python#ubuntu
如何定位TypeError: cannot pickle dict_keys object错误原因及解决NuScenes数据集在多进程并发训练或测试时出现的这个错误

UniAD的NuScenesE2EDataset继承自NuScenesDataset,其实例里面的eval_detection_configs数据就是这么来的,里面的class_names的值默认是通过dict.keys()获得的,没有转换成Pickler支持的类型,这才导致了TypeError: cannot pickle 'dict_keys' object

#python
PIL Image resize()可导致模型训练和推理效果有一定差异

这些差异导致检测效果有差异,有时没注意这些细节可能一下想不到原因,由其是同一种算法C++的实现和PIL库的实现有差异时。然后对C++里改算法的实现需要和PIL的实现仔细核确保按位置计算得到的缩放结果值和PIL计算出来的值是非常接近的,像BICUBIC算法的实现,经常有差异。

#人工智能
Docker、nvidia-container-toolkit安装与常用docker命令及docker镜像和容器的更新维护

Python的virtual env和Anaconda的env可以用来做环境隔离防止不同的模型环境之间在安装时相互影响甚至因为支持包的版本冲突导致不能同时使用,但是不具备打包发布部署的功能,想要调试好一个用于训练或者模型运行调用的环境后直接可以打包发布部署到别的linux机器上,还是非docker莫属,Docker作为隔离运行和部署的工具利器,现在使用越来越多,要想在生产环境中使用同一......

PyTorch的gradcheck()报错问题RuntimeError: Jacobian mismatch for output 0 with respect to input 1的解决

有时遇到有的模型训练或测试脚本执行时遇到torch.autograd.gradcheck()抛出类似如下的错误:有时报的是Jacobian mismatch for output 0 with respect to input 0,这个出错的原因都是一个:torch.autograd.gradcheck()要求参数计算的PyTorch Tensor数据都是torch.DoubleTensor类型的

#pytorch#深度学习#python
    共 51 条
  • 1
  • 2
  • 3
  • 6
  • 请选择