docker︱在nvidia-docker中使用tensorflow-gpu/jupyter

docker小白…搭建基础：宿主机已经有CUDA8.0进出快捷键：ctrl+d 退出容器且关闭, docker ps 查看无ctrl+p+q 退出容器但不关闭, docker ps 查看有使用docker restart命令重启容器使用docker attach命令进入容器一、安...

intjun

5706人浏览 · 2018-08-21 16:40:36

intjun · 2018-08-21 16:40:36 发布

docker小白…
搭建基础：宿主机已经有CUDA8.0

进出快捷键：

ctrl+d 退出容器且关闭, docker ps 查看无
ctrl+p+q 退出容器但不关闭, docker ps 查看有
使用docker restart命令重启容器
使用docker attach命令进入容器

一、安装

参考：Docker Compose + GPU + TensorFlow = ❤️
安装docker

curl -sSL https://get.docker.com/ | sh
   
   1

安装Nvidia Docker

wget -P /tmp https://github.com/NVIDIA/nvidia-docker/releases/download/v1.0.1/nvidia-docker_1.0.1-1_amd64.deb
sudo dpkg -i /tmp/nvidia-docker*.deb
   
   1
2

通过以下命令来检验是否成功：

nvidia-docker run --rm nvidia/cuda nvidia-smi
   
   1

执行的时候可能会报错：

Error: unsupported CUDA version: driver 8.0 < image 9.0.176 
   
   1

所以需要指定一下版本：

nvidia-docker run --rm nvidia/cuda:8.0-devel nvidia-smi
   
   1

可能报错二：

docker: Error response from daemon: create nvidia_driver_367.48: create nvidia_driver_367.48: Error looking up volume plugin nvidia-docker: legacy plugin: plugin not found.
See 'docker run --help'.
   
   1
2

使用下面命令查看nvidia-docker 是否启动

systemctl status nvidia-docker
   
   1

二、nvidia-smi的使用

1、拉取镜像、开启容器

当一台机器有很多个GPU可以通过NV_GPU来指定，
通过-v将宿主机下的/data1/matt/docker文件夹与docker之中的/mnt**共享文件**。
matt/docker是容器名称

NV_GPU=1 nvidia-docker run -v /matt/docker:/mnt $container --rm -ti matt/docker bash
   
   1

tensorflow官网有个镜像拉取方式：

sudo docker run -it --rm $DEVICES -v /usr/lib64/nvidia/:/usr/local/nvidia/lib64 tensorflow/tensorflow:latest-gpu bash
   
   1

有一个nvidia关于CUDA8的镜像：

sudo nvidia-docker run --rm -ti nvidia/cuda:8.0 bash
   
   1

从docker hub上拉取镜像：

docker pull mattzheng/docker_gpu
   
   1

最简单的启动：

nvidia-docker run --rm -ti <镜像名字>
docker attach <容器名字>  # 已打开的容器
   
   1
2

2.上传容器与创建镜像

创建镜像，容器名字叫device-query

nvidia-docker build -t device-query
   
   1

上传容器到docker hub之上，
（1）先得在网站注册：https://hub.docker.com/
（2）在terminal，中键入docker login输入账号与密码，就与Hub联通了

sudo docker push mattzheng/device-query
   
   1

3.容器与镜像删减

镜像操作

docker images #查看有哪些镜像
docker rmi image_id #删除镜像ID或者名称都可以
   
   1
2

容器操作

docker ps -a  # 容器参考
docker container ls # 参考容器
docker rm container_id #删除容器 
   
   1
2
3

容器停止：

docker ps -a | grep <container-id>
docker stop <container-id>
   
   1
2

有时候很难删除镜像：

# 第一种
Error response from daemon: conflict: unable to delete e4b9e4f71238 (must be forced) - image is being used by stopped container 1e359ad4363d
# 第二种
Error response from daemon: conflict: unable to delete 1dc4f730b414 (cannot be forced) - image has dependent child images
   
   1
2
3
4

第一种代表有依赖的容器，需要根据容器名称，docker rm进行删除。
第二种，因为有child，需要删除依赖的image，可以根据tag来进行删除，

docker rm REPOSITORY:TAG    # 根据TAG删除容器
   
   1

4.容器改名

sudo nvidia-docker tag tensorflow/tensorflow:latest-gpu matt/nvidia-docker
   
   1

把这个容器tensorflow/tensorflow:latest-gpu，改成名字matt/nvidia-docker
.

5.容器的保存

如何对容器进行保存防止退出后全部修改消失

（1）预先获取docker ps -l的容器ID
（2）然后从新复制一个新的容器：

docker commit 1610c46c28bd matt/test
   
   1


docker commit -m="has update" -a="matt" fc4bd61a4af2 matt/docker:5.2
   
   1
2

冒号之后是tag名称，可以继续更新，需要注意，关闭之前，需要apt-get update

6.在tensorflow容器中打开Jupyter notebook

官方：https://hub.docker.com/r/tensorflow/tensorflow/

nvidia-docker run -it -p 8888:8888 tensorflow/tensorflow:latest-gpu
   
   1

然后就可以用http://localhost:8888/ 打开该jupyter。
但是如果是，宿主机是远程Linux服务器，你想在远程调用服务器中docker的Jupyter notebook。因为会跟宿主机的IP起冲突，所以需要指定以下IP，在重启的时候：

sudo nvidia-docker run -it -p 7777:8888 mattzheng/docker_gpu_1
   
   1

也就是把docker中的8888端口，赋值到宿主机的7777端口，这样不会与其他冲突。
其中，第一次打开输入的密码，是toke之后的内容，本图中的为：
0375ddd82c0417e55dddf4d3bf7f9dcba9530e89391a6163

这里写图片描述

打开容器之后就可以启动了：

jupyter notebook --allow-root
   
   1

或者要在Jupyter中同时使用Py2 py3的话，可以参考：

pip2 install ipython notebook
pip3 install ipython notebook
ipython2 kernelspec install-self
ipython3 kernelspec install-self 
   
   1
2
3
4

就可以使用了，重启后，会出现pip3/pip2

主题换色（参考：https://github.com/dunovank/jupyter-themes）：

安装主题包：

!pip install --upgrade jupyterthemes
   
   1

# 用 solarized-light 主题，代码字体是 inputmono，字号 12 点，界面字体 sourcesans，输出字体 sourcesans，开启工具栏，开启标题栏
!jt -t solarized-light -f inputmono -fs 12 -nf sourcesans -tf sourcesans -T -N
   
   1
2

执行后重新打开即可。参考模板型号：

Available Themes: 
   chesterish
   grade3
   gruvboxd
   gruvboxl
   monokai
   oceans16
   onedork
   solarizedd
   solarizedl
   
   1
2
3
4
5
6
7
8
9
10

延伸一：如果修改Jupyter notebook密码

可以参考：Running a notebook server在服务器上执行：jupyter notebook –generate-config
记录下生成的配置文件位置，例如：/home/.jupyter/jupyter_notebook_config.py
打开jupyter，新建一个notebook，生成密码的sha1秘钥，代码如下：

from notebook.auth import passwd
passwd()
   
   1
2

在文本框中输入并确认一次密码后记录sha1秘钥值，如 'sha1:XXXXXXX'
将这段值按如下格式粘贴到配置文件jupyter_notebook_config.py末尾

c.NotebookApp.password = u'sha1:XXXXXXX'
   
   1

重启jupyter，重新打开网页即可

延伸二：报错：OSError: [Errno 99] Cannot assign requested address

启动的时候需要：

jupyter notebook --ip=0.0.0.0 --no-browser --allow-root
   
   1

7.在容器中打开nvidia/digits

nvidia-docker run --name digits -p 5000:5000 nvidia/digits
   
   1

三、tensorflow安装

在tensorflow/tensorflow:latest-gpu版本中，没有pip3

需要安装一下：

apt-get update
apt-get install python3-pip
   
   1
2

然后利用pip3安装tensorflow以及keras（官网链接）：

apt-get install libcupti-dev
apt-get install python3-pip python3-dev python-virtualenv
virtualenv --system-site-packages -p python3 targetDirectory
pip3 install tensorflow-gpu
pip3 install keras
   
   1
2
3
4
5

之后想安装opencv，但是有一些依赖很容易导致报错：

apt-get install libsm6 libxrender1 libfontconfig1
apt-get install -y python-qt4
pip3 install opencv-python
   
   1
2
3

不然有可能会报错：

ImportError: libSM.so.6: cannot open shared object file: No such file or directory
ImportError: libXext.so.6: cannot open shared object file: No such file or directory
   
   1
2

如果也同时需要安装Keras,除了pip install keras，不然会报错：python ImportError:load_weightsrequires h5py.
还需要加载：

pip3 install h5py
   
   1

延伸：

最长的开docker命令：

NV_GPU=1 nvidia-docker run -it -p 7777:8888 -v /data/matt/docker:/mnt $container --rm -ti matt/docker bash
   
   1

延伸二：

出现Unable to locate package问题，则需要：

apt-get update
   
   1

在使用会出现的UnicodeEncodeError: 'ascii' codec can't encode character '\uff08' in position 0: ordinal not in range(128)错误：
系统出现不能识别中文，需要加载中文字体：zh_CN.UTF-8（参考博客：docker 学习笔记——解决Ubuntu中文乱码问题）

延伸三：上传至阿里云

参考：https://blog.csdn.net/qq_16605855/article/details/79961933
4 管理Docker Hub镜像站点：配置Docker加速器

链接：https://cr.console.aliyun.com/?spm=5176.1971733.0.2.duOGn4#/accelerator

5 创建镜像仓库的命名空间

例如：msj

链接：https://cr.console.aliyun.com/?spm=5176.1971733.0.2.duOGn4#/namespace/index

6 创建镜像仓库

例如：image-test

链接：https://cr.console.aliyun.com/?spm=5176.1971733.0.2.duOGn4#/imageList

然后通过这段code就可以上传自己的docker到自己的阿里云:

  $ sudo docker login --username= registry.cn-hangzhou.aliyuncs.com
  $ sudo docker tag [ImageId] registry.cn-hangzhou.aliyuncs.com/matt_docker/nvidia-docker:[镜像版本号]
  $ sudo docker push registry.cn-hangzhou.aliyuncs.com/matt_docker/nvidia-docker:[镜像版本号]
   
   1
2
3

公众号“素质云笔记”定期更新博客内容：
这里写图片描述

参考：

CentOS Linux 安裝與使用 NVIDIA Docker GPU 計算環境教學
 Docker 中玩转 GPU
Using TensorFlow via Docker
Docker Compose + GPU + TensorFlow = ❤️
Docker基礎教程

我的博客即将同步至腾讯云+社区，邀请大家一同入驻。

向您推荐>>Eolink开发者社区

权威｜前沿｜技术｜干货｜国内首个API全生命周期开发者社区

更多推荐

ELK实现containerd的容器日志采集展示【基于logging的全栈监测】

企业级ELK Stack构建介绍

云原生

深入理解 Mocha 测试框架：从零实现一个 Mocha

前言什么是自动化测试自动化测试在很多团队中都是Devops环节中很难执行起来的一个环节，主要原因在于测试代码的编写工作很难抽象，99%的场景都需要和业务强绑定，而且写测试代码的编写工作量往往比编写实际业务代码的工作量更多。在一些很多业务场景中投入产出比很低，适合写自动化测试的应该是那些中长期业务以及一些诸如组件一样的基础库。自动化测试是个比较大的概念，其中分类也比较多，比如单元测试，端对端测试，集

云原生

(20200916 Solved)docker-compose up创建容器自动退出

问题描述如题，创建容器后自动退出了。并且docker start container无效解决方案原因是缺失了控制终端的配置，需要在docker-compose.yml中增加tty:true ，有时候这样也不行，需要再增加一个command:/bin/bash，命令不一定是这个，需要是一个不会退出的命令，然后用-d后台启动容器。Referencesdocker-compose启动容器后自动退出...

云原生

所有评论(0)

查看更多评论

intjun

@intjun

已为社区贡献1条内容