一、创建docker

sudo NV_GPU=7 nvidia-docker run --name wgxiest -it -p 10029:22 -p 5009:80 -v /raid/wgxie/ssh-swin/:/workspace nvcr.io/nvidia/pytorch:20.12-py3
(10029和5009是宿主机端口,自定)

二、更新库

apt update
apt upgrade

三、安装CUDA

  • 安装依赖

sudo apt-get install freeglut3-dev build-essential libx11-dev libxmu-dev libxi-dev libgl1-mesa-glx libglu1-mesa libglu1-mesa-dev
  • 运行CUDA安装包
sh cuda_10.1.243_418.87.00_linux.run
  • 报错:

./cuda-installer: error while loading shared libraries: libxml2.so.2: cannot open shared object file: No such file or directory

原因是缺少:libxml2

  • 解决方法:
apt install libxml2

#安装时需要选择地区,选择亚洲上海即可
  • 报错:

Failed to verify gcc version. See log at /var/log/cuda-installer.log for details.

跳过gcc版本检查即可

  • 解决方法:
sh cuda_10.1.243_418.87.00_linux.run --override
  • 弹出cuda安装参数时,需要确定的有

接受条款 :accept

选择安装内容:单选 cuda toolkit

update cuda路径 :yes

  • 报错:

Installation failed. See log at /var/log/cuda-installer.log for details.

查看该日志,主要报错信息为:

[ERROR]: boost::filesystem::remove: Directory not empty: "/var/log/nvidia/.uninstallManifests/CUDA_Toolkit_10.1-components/"

出现这种情况,只需要在安装命令后再加上安装路径

--librarypath=/usr/local/cuda-10.1

安装路径按自己的选择

  • 解决方法:
sh cuda_10.1.243_418.87.00_linux.run --override --librarypath=/usr/local/cuda-10.1
  • 出现下图界面,安装成功

  • nvidia-smi 查看cuda版本是否更换成功
  • nvcc -V

四、配置CUDA环境变量(可选)

  • 添加环境变量
    
    vi ~/.bashrc 
    
    export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda/lib64
    export PATH=$PATH:/usr/local/cuda/bin
    export CUDA_HOME=$CUDA_HOME:/usr/local/cuda
  • 多版本切换

cd /usr/local

cuda是默认路径,cuda-10.1和cuda-11.1是安装的两个版本

使用stat查看cuda文件夹链接的是哪个版本的cuda

可以看到cuda链接的是cuda-10.1

当想要使用cuda-11.1时,删除当前软链接,新建cuda-11.1和cuda的软链接即可。

sudo rm -rf cuda
sudo ln -s /usr/local/cuda-10.1 /usr/local/cuda

再次确认版本:


总结

本文主要是记录创建服务器docker后,cuda版本不符要求进行多版本安装配置,仅供私人学习。

Logo

权威|前沿|技术|干货|国内首个API全生命周期开发者社区

更多推荐