linux(centos7)离线安装A100显卡驱动cuda/cudnn 以及解决docker not select device driver...gpu
1.确认GPU型号和操作系统版本,本示例中以A100以及操作系统为Centos 7.9进行操作。准备GPU驱动和CUDA 11.2软件包,在nvidia官网进行驱动包和CUDA包下载链接:linux系统均选择 Linux 64-bitCUDA Toolkit选择最新版本如您需要老版本CUDA,请前往老版本CUDA下载本示例中使用CUDA 11.2。
1.确认GPU型号和操作系统版本,本示例中以A100以及操作系统为Centos 7.9进行操作。
准备GPU驱动和CUDA 11.2软件包,在nvidia官网进行驱动包和CUDA包下载
链接: link
linux系统均选择 Linux 64-bit
CUDA Toolkit选择最新版本
如您需要老版本CUDA,请前往老版本CUDA下载
本示例中使用CUDA 11.2。
访问nvidia官网,下载CUDA,cuda的链接为:https://developer.nvidia.com/cuda-downloads
选择runfile文件来安装。
2.检查服务器GPU识别情况
3.安装GPU驱动之前需要在操作系统下查看GPU卡是否能够完全识别,如不能识别需要进行重新插拔、对调测试等步骤进行硬件排查。
查看到所有的GPU
lspci | grep -i nvidia
4.老版本软件包卸载(可选)
GPU驱动卸载
/usr/bin/nvidia-uninstall
CUDA卸载方法:
/usr/local/cuda/bin/cuda-uninstaller
6.禁用系统自带的nouveau模块
检查nouveau模块是否加载,已加载则先禁用
lsmod | grep nouveau
7.安装gcc、g++编译器
cuda安装samples测试程序进行make时需要g++,但安装cuda软件包时不需要。
yum -y install gcc gcc-c++ kernel-devel make
8.禁用系统自带的nouveau模块
检查nouveau模块是否加载,已加载则先禁用
lsmod | grep nouveau
9.没有blacklist-nouveau.conf文件则创建
vim /usr/lib/modprobe.d/blacklist-nouveau.conf
blacklist nouveau
options nouveau modeset=0
执行如下命令使内核生效(需要重启服务器后才可真正禁用nouveau)
dracut -force
10.重启操作系统
reboot
11.重启系统,然后检查禁用nouveau模块配置与文本模式是否生效。
lsmod | grep nouveau
12.修改系统运行级别为文本模式 GPU驱动安装必须在文本模式下进行
systemctl set-default multi-user.target
GPU驱动安装
root用户下进行GPU驱动
chmod +x NVIDIA-Linux-x86_64-450.80.02.run
./NVIDIA-Linux-x86_64-450.80.02.run --no-opengl-files --ui=none --no-questions --accept-license
配置GPU驱动内存常驻模式
nvidia-persistenced
设置开机自启动
vim /etc/rc.d/rc.local
在文件中添加一行
nvidia-persistenced
赋予/etc/rc.d/rc.local文件可执行权限
chmod +x /etc/rc.d/rc.local
若无/etc/rc.d/rc.local,也可修改
vim /etc/rc.local
chmod +x /etc/rc.local
安装完GPU驱动后查看GPU状态查看及相关配置。
nvidia-smi
重启图形化界面
sudo service lightdm restart
CUDA安装
安装CUDA
安装CUDA时需注意,如果已经安装过GPU驱动,安装CUDA时就不要再选择GPU驱动安装了。
chmod +x cuda_11.1.1_455.32.00_linux.run
sh cuda_11.1.1_455.32.00_linux.run --no-opengl-libs
新版本CUDA安装界面: 注意Driver选项,表示是否安装GPU驱动,如果已经安装了GPU驱动,这里不要再勾选。
配置环境变量
添加到/etc/profile文件中,对所有用户生效
vim /etc/profile
export PATH=/usr/local/cuda/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH
source /etc/profile
测试cuda安装是否正确,环境变量是否识别成功
nvcc -V
参考链接
链接: link
Docker - 解决could not select device driver…gpu问题(安装nvidia-container-runtime)
链接: [link]https://www.hangge.com/blog/cache/detail_3184.html)
链接: link
错误问题:docker: Error response from daemon: OCI runtime create failed: container_linux.go:265: starting container process caused "process_linux.go:368: container init caused "process_linux.go:351: running prestart hook 2 caused \"error running hook: exit status 1, stdout: , stderr: exec command: [/bin/nvidia-container-cli --load-kmods configure --ldconfig=@/sbin/ldconfig --device=all --utility --pid=31906 /docker-data/docker/overlay2/aeb0657e72fbf05d7382b2b546922960d0e2d6552b3b73eafc1f9af2396ab882/merged]\\nnvidia-container-cli: mount error: file creation failed: /docker-data/docker/overlay2/
解决方法: dockers 版本19.0以及以下的,docker run -itd --runtime=nvidia -e NVIDIA_VISIBLE_DEVICES=all -v /mnt/data/:/app/data/ -p 40081:30081 y:v8
docker 版本20以及以上的docker run -itd --gpus all -v /mnt/data/:/app/data/ -p 40081:30081 y:v8
更多推荐
所有评论(0)