logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

记NVIDIA显卡A100在K8S POD中“Failed to initialize NVML: Unknown Error“问题解决

因项目原因需要在k8s上跑GPU相关的代码,优选使用NVIDIA A100显卡,但在根据官方文档简单并部署后,出现了pod中GPU运行一段时间后丢失的问题,进入容器后发现nvidia-smi命令报错"Failed to initialize NVML: Unknown Error"。尝试删除并且重建容器后,刚开始nvidia-smi命令正常,但是在大约10秒过后,重复出现以上异常。

#kubernetes#docker#容器
到底了