【踩坑】docker 中使用 Nvidia GPU
OS: Manjaro 21.1.0 PahvoKernel: x86_64 Linux 5.10.56-1-MANJARO安装 Docker参考 How To Install Docker CE on Manjaro Linuxsudo pacman -S docker # 安装 docker-cesudo systemctl start docker.service # 开启 docker 服
OS: Manjaro 21.1.0 Pahvo
Kernel: x86_64 Linux 5.10.56-1-MANJARO
安装 Docker
参考 How To Install Docker CE on Manjaro Linux
sudo pacman -S docker # 安装 docker-ce
sudo systemctl start docker.service # 开启 docker 服务
sudo systemctl enable docker.service # 开机自启动 docker 服务
sudo usermod -aG docker $USER # 让 docker 命令执行不需要 sudo
sudo docker --version # 查看 docker-ce 版本
reboot # 重启电脑使 usermod 生效
请确保 docker 版本高于 19.03,否则需要 nvidia-docker 才能使用 GPU
Nvidia GPU 支持
参考 Run GPU accelerated Docker containers with NVIDIA GPUs
yay -Ss nvidia-container-toolkit # 这个包在 AUR
sudo systemctl restart docker # 重启 docker 服务
主机 (host) 中只需要安装英伟达显卡驱动,不需要安装 cuda-toolkit.
测试:
docker pull nvidia/cuda:11.0-base-ubuntu18.04
docker run -it --gpus all nvidia/cuda:11.0-base-ubuntu18.04 nvidia-smi
遇到的问题
docker 中执行 nvidia-smi
后报错:
Failed to initialize NVML: Unknown Error
原因 (见上面 wiki 链接,执行 systemctl --version
查看 systemd
版本,如果是 v248
或更高则可确认是该问题):
Note: libnvidia-containerAUR has no support for cgroups v2. You need to set the
systemd.unified_cgroup_hierarchy=false
kernel parameter and setno-cgroups = false
in/etc/nvidia-container-runtime/config.toml
if you are using systemd v248 or higher.
解决方法
参见:
需要做的有:
- 添加内核参数
systemd.unified_cgroup_hierarchy=false
- 在
/etc/nvidia-container-runtime/config.toml
修改参数no-cgroups = false
其中内核参数修改方法(GRUB)为:编辑 /etc/default/grub
,在 GRUB_CMDLINE_LINUX_DEFAULT
参数双引号内加上所需参数:GRUB_CMDLINE_LINUX_DEFAULT="... systemd.unified_cgroup_hierarchy=false"
,再执行 grub-mkconfig -o /boot/grub/grub.cfg
生成启动引导配置文件。然后重启电脑,执行 cat /proc/cmdline
确认参数已添加。
更多推荐
所有评论(0)