ubuntu系统（6）：Nvidia Docker配置cuda+pytorch【纯小白版】

Nvidia Docker中使用docker hub拉取带有cuda+pytorch的镜像，以及生成容器并查询相关信息

zhenz0729

3776人浏览 · 2023-12-21 10:06:55

zhenz0729 · 2023-12-21 10:06:55 发布

三、Docker hub安装pytorch和对应版本cuda

1、在Docker hub中查询对应版本镜像

编辑2、查询pytorch/pytorch的镜像

3、devel版本和runtime版本的区别

4、显示NVIDIA CUDA 编译器（nvcc）的版本信息

前期因为要安装东西需要cuda10+的环境，查了部分资料发现对这方面的介绍不是很详细，所以结合前期整理的笔记，写一个比较详细的纯小白教程。

还要特别注意的是：此版本为Ubuntu20.04，默认的python版本为3.10。

一、安装Nvidia Docker

可以直接参考另一篇教程Ubuntu20.04 Nvidia Docker 安装-CSDN博客，写的很详细。

注意安装完毕后再进行下一步。

二、安装显卡驱动

1、安装驱动

sudo apt list nvidia-driver*

2、检查显卡驱动版本

lspci -k | grep -A 2 -i "VGA"

将输出当前主机的显卡驱动版本和驱动程序的详细版本。

3、查询驱动版本和显卡相关信息

nvidia-smi

提示当前系统中的信息：

显卡信息：显示系统中安装的 NVIDIA 显卡的详细信息，包括显卡型号、设备ID、总线ID等。
驱动程序版本：显示当前系统中所使用的 NVIDIA 显卡驱动程序的版本号。
GPU使用情况：显示每个显卡的使用情况，包括GPU利用率、显存使用情况、温度、风扇转速等。
进程信息：显示正在使用显卡资源的进程列表，包括进程ID、进程名称、GPU使用情况等。
其他相关信息：还会显示一些其他的诊断信息，如显卡电源状态、PCIe链接状态等。

三、Docker hub安装pytorch和对应版本cuda

显卡驱动安装成功后：

1、在Docker hub中查询对应版本镜像

2、查询pytorch/pytorch的镜像

选择需要的版本

3、devel版本和runtime版本的区别

Devel版本（pytorch:2.0.1-cuda11.7-cudnn8-devel）：
- Devel版本是用于开发和构建PyTorch的版本。
- 它包含了用于编译和构建PyTorch库的开发工具和依赖项。
- Devel版本通常用于构建自定义的PyTorch扩展、模型库或其他与PyTorch相关的软件。
- 它包含了用于调试和开发的符号表和调试工具，可以帮助开发者进行错误排查和调试。
Runtime版本（pytorch:2.0.1-cuda11.7-cudnn8-runtime）：
- Runtime版本是用于运行PyTorch应用程序的版本。
- 它包含了PyTorch库和必要的运行时依赖项，但不包含开发工具和符号表。
- Runtime版本通常用于在生产环境中部署和运行PyTorch应用程序。
- 它不包含用于编译和构建自定义扩展或库的工具，因此不适用于开发新的PyTorch功能或调试代码。

总结：

Devel版本适用于开发者构建和扩展PyTorch，它包含了开发工具和依赖项，以及用于调试和错误排查的工具。Runtime版本适用于在生产环境中运行PyTorch应用程序，它只包含必要的运行时依赖项，不包含开发工具和符号表。【所以建议直接用devel版本的】

4、拉取对应版本镜像

我用的是pytorch:2.0.1-cuda11.7-cudnn8的devel版本，直接复制上述后面的命令行。

docker pull pytorch/pytorch:2.0.1-cuda11.7-cudnn8-devel

输出表明你已成功下载了pytorch/pytorch镜像的特定版本2.0.1-cuda11.7-cudnn8-devel到本地。可以使用该镜像来创建和运行基于PyTorch的容器。

Pulling from pytorch/pytorch：表示正在从pytorch/pytorch镜像仓库中拉取镜像。
Pull complete：表示已成功下载一个镜像层。
Digest：表示镜像的摘要，用于唯一标识镜像的内容。
Status: Downloaded newer image for pytorch/pytorch:2.0.1-cuda11.7-cudnn8-devel：表示已成功下载标签为2.0.1-cuda11.7-cudnn8-devel的pytorch/pytorch镜像。

5、查看拉取完成的镜像

docker images

6、生成容器

nvidia-docker run --gpus all -itd --name=alpa_test pytorch/pytorch:2.0.1-cuda11.7-cudnn8-devel

其中是命名叫alpa_test，可以使用容器ID或容器名称直接进入容器。

截止到这一步就可以直接使用带有cuda+pytorch的容器了。

四、进入容器并查询相关信息

1、进入容器

docker exec -it alpa_test bash

2、打印环境变量

echo $LD_LIBRARY_PATH

3、查询本地安装的软件和程序

ls /usr/local/

4、显示NVIDIA CUDA 编译器（nvcc）的版本信息

nvcc -V

向您推荐>>Eolink开发者社区

权威｜前沿｜技术｜干货｜国内首个API全生命周期开发者社区

更多推荐

ELK实现containerd的容器日志采集展示【基于logging的全栈监测】

企业级ELK Stack构建介绍

云原生

深入理解 Mocha 测试框架：从零实现一个 Mocha

前言什么是自动化测试自动化测试在很多团队中都是Devops环节中很难执行起来的一个环节，主要原因在于测试代码的编写工作很难抽象，99%的场景都需要和业务强绑定，而且写测试代码的编写工作量往往比编写实际业务代码的工作量更多。在一些很多业务场景中投入产出比很低，适合写自动化测试的应该是那些中长期业务以及一些诸如组件一样的基础库。自动化测试是个比较大的概念，其中分类也比较多，比如单元测试，端对端测试，集

云原生

(20200916 Solved)docker-compose up创建容器自动退出

问题描述如题，创建容器后自动退出了。并且docker start container无效解决方案原因是缺失了控制终端的配置，需要在docker-compose.yml中增加tty:true ，有时候这样也不行，需要再增加一个command:/bin/bash，命令不一定是这个，需要是一个不会退出的命令，然后用-d后台启动容器。Referencesdocker-compose启动容器后自动退出...

云原生

所有评论(0)

查看更多评论

zhenz0729

@zhenz0729

已为社区贡献1条内容