[问题已处理]-k8s的GPU节点上无法使用nvidia-smi

导语：在k8s的GPU节点上无法使用/usr/bin/nvidia-smi报错1NVIDIA-SMI couldn’t find libnvidia-ml.so library in your system这个我明明安装了显卡驱动在宿主机使用nvidia-smi没问题，但是在容器内就报错NVIDIA-SMI couldn’t find libnvidia-ml.so library in you

爷来辣

2792人浏览 · 2022-03-21 18:13:07

爷来辣 · 2022-03-21 18:13:07 发布

导语：在k8s的GPU节点上无法使用/usr/bin/nvidia-smi

报错1

NVIDIA-SMI couldn’t find libnvidia-ml.so library in your system

这个我明明安装了显卡驱动在宿主机使用nvidia-smi没问题，但是在容器内就报错NVIDIA-SMI couldn’t find libnvidia-ml.so library in your system

./NVIDIA-Linux-x86_64-470.63.01.run  -silent --no-x-check --no-nouveau-check --install-libglvnd

原因：因为node节点只有一个有GPU和同事一起测试，同事给GPU节点打了污点，安装nvidia-device-plugin插件的时候没有添加容忍，导致其他几台没有GPU的节点安装好了，真正有GPU的节点没有安装插件，但是页面上因为污点的问题没有显示not ready这些报错信息(因为压根没装)。启动的时候指定了GPU的节点运行，就出现了尴尬的问题。安装完查看象征性的检查了一下，发现插件的pod都是1/1 也没多想。

报错2

nvidia-smi 无法显示CUDA版本

错误如图

需要在yaml里添加env参数 - NVIDIA_DRIVER_CAPABILITIES=all，docker-compose也有这个情况。

k8s

        env:
        - name: NVIDIA_DRIVER_CAPABILITIES
          value: all

docker-compose

    environment:
      - NVIDIA_DRIVER_CAPABILITIES=all

添加完成之后重新应用即可

K8S/Kubernetes

K8S/Kubernetes社区为您提供最前沿的新闻资讯和知识内容

更多推荐

【深度】阿里巴巴万级规模 K8s 集群全局高可用体系之美

作者 | 韩堂、柘远、沉醉来源 | 阿里巴巴云原生公众号前言台湾作家林清玄在接受记者采访的时候，如此评价自己 30 多年写作生涯：“第一个十年我才华横溢，‘贼光闪现’，令周边黯然失色；第二个十年，我终于‘宝光现形’，不再去抢风头，反而与身边的美丽相得益彰；进入第三个十年，繁华落尽见真醇，我进入了‘醇光初现’的阶段，真正体味到了境界之美”。长夜有穷，真水无香。领略过了 K8s“身在江

K8S/Kubernetes

如何基于 K8s 构建下一代 DevOps 平台？

作者 | 孙健波（天元）导读：当前云原生 DevOps 体系现状如何？面临哪些挑战？如何通过 OAM 解决云原生 DevOps 场景下的诸多问题？云原生开发应用模型 OAM(Open Application Model) 社区核心成员孙健波将为大家一一解答，并分享如何基于 OAM 和 Kubernetes 打造无限能力的下一代 DevOps 平台。什么是 DevOps？为什么基于 Kub