从零搭建可分配节点GPU资源至容器的Kubernetes集群（Nvidia版本）

最近和AI团队一起做项目，需要将机器学习的项目部署进k8s。因为要使用节点的GPU资源，普通部署的k8s集群不能用了，因为docker只能对CPU和内存而不能对GPU资源进行共享和隔离。这一节我们就一起来看看怎么部署一个能分配GPU资源的k8s集群。我是T型人小付，一位坚持终身学习的互联网从业者。喜欢我的博客欢迎在csdn上关注我，如果有问题欢迎在底下的评论区交流，谢谢。文章目录操作环境利用kub

T型人小付

3511人浏览 · 2020-05-20 02:26:34

T型人小付 · 2020-05-20 02:26:34 发布

最近和AI团队一起做项目，需要将机器学习的项目部署进k8s。因为要使用节点的GPU资源，普通部署的k8s集群不能用了，因为docker只能对CPU和内存而不能对GPU资源进行共享和隔离。这一节我们就一起来看看怎么部署一个能分配GPU资源的k8s集群。

我是T型人小付，一位坚持终身学习的互联网从业者。喜欢我的博客欢迎在csdn上关注我，如果有问题欢迎在底下的评论区交流，谢谢。

文章目录

操作环境

master(CPU) - ubuntu 18.04
gpu-node(GPU) - ubuntu 18.04

利用kubeadm安装

基本上跟着《【Kubernetes 003】Centos7通过Kubeadm安装Kubernetes1.15详解（附一键安装脚本）》进行安装即可成功创建集群。Centos和Ubuntu的命令稍微有些不同，但是大同小异，不影响整体步骤。

但是如果想在GPU节点的pod内使用GPU资源，还得对GPU节点做一些特殊的设定。所以请在将GPU节点加入master之前，对GPU节点完成下述操作。

GPU节点安装准备

查看Linux的GPU信息

先更新本地数据库，然后获取GPU的详细信息

sudo update-pciids
sudo lspci | grep VGA -A 10

如果lspci命令没有找到，先通过下面命令安装

sudo yum install pciutils

我这边机器信息如下

root@gpu-node:~# lspci -v | grep VGA -A 10
01:00.0 VGA compatible controller: NVIDIA Corporation TU104 [GeForce RTX 2070 SUPER] (rev a1) (prog-if 00 [VGA controller])
	Subsystem: Micro-Star International Co., Ltd. [MSI] Device c729
	Flags: bus master, fast devsel, latency 0, IRQ 130
	Memory at a3000000 (32-bit, non-prefetchable) [size=16M]
	Memory at 90000000 (64-bit, prefetchable) [size=256M]
	Memory at a0000000 (64-bit, prefetchable) [size=32M]
	I/O ports at 3000 [size=128]
	[virtual] Expansion ROM at 000c0000 [disabled] [size=128K]
	Capabilities: [60] Power Management version 3
	Capabilities: [68] MSI: Enable+ Count=1/1 Maskable- 64bit+
	Capabilities: [78] Express Legacy Endpoint, MSI 00

如果跟我的机器一样是nvidia的显卡，根据显示的型号去查询支持的最新driver，安装完driver就会有管理工具nvidia-smi

nvidia显卡持续查看使用情况，每秒更新一次

watch -n 1 nvidia-smi

我这边的GPU和driver信息如下

root@gpu-node:~# nvidia-smi
Tue May 19 10:58:25 2020       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 435.21       Driver Version: 435.21       CUDA Version: 10.1     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  GeForce RTX 207...  Off  | 00000000:01:00.0 Off |                  N/A |
| 24%   28C    P8    11W / 215W |     19MiB /  7982MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|    0      1765      G   /usr/lib/xorg/Xorg                             9MiB |
|    0      1799      G   /usr/bin/gnome-shell                           8MiB |
+-----------------------------------------------------------------------------+

Nvidia GeForce RTX 2070 SUPER
Driver版本 435.21
显存大小 7982MiB

安装nvidia-docker2

下面对原生docker进行改进，使其能使用GPU资源。不同厂商有自己的解决方法，Nvidia官方推出了nvidia-docker来对原生进行改善，目前是2.x版本，说明看这里。

首先确保安装了nvidia driver以及原生docker，然后跟着这里的方法安装repo，命令如下

curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | \
  sudo apt-key add -
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | \
  sudo tee /etc/apt/sources.list.d/nvidia-docker.list
sudo apt-get update

之后就可以搜索到了，这里是2.3版本

root@gpu-node:~# apt search nvidia-docker
Sorting... Done
Full Text Search... Done
nvidia-docker2/bionic 2.3.0-1 all
  nvidia-docker CLI wrapper

因为后面还要安装别的插件，有兼容性问题，请确保版本在2.0以上

然后安装nvidia-docker2

sudo apt-get install -y nvidia-docker2

在最后会问你要如何操作/etc/docker/daemon.json这个文件

Configuration file '/etc/docker/daemon.json'
 ==> File on system created by you or by a script.
 ==> File also in package provided by package maintainer.
   What would you like to do about it ?  Your options are:
    Y or I  : install the package maintainer's version
    N or O  : keep your currently-installed version
      D     : show the differences between the versions
      Z     : start a shell to examine the situation
 The default action is to keep your current version.
*** daemon.json (Y/I/N/O/D/Z) [default=N] ?

这里我们直接选择Y让安装程序去覆盖现有文件，如下

root@gpu-node:~# cat /etc/docker/daemon.json
{
    "runtimes": {
        "nvidia": {
            "path": "nvidia-container-runtime",
            "runtimeArgs": []
        }
    }
}

可以看到为docker添加了一个新的runtime

重启一下docker服务

service docker restart

这样在机器上就多了一个docker的runtime，在跑docker的时候可以指定runtime

docker run --runtime=nvidia --rm nvidia/cuda nvidia-smi

或者用下面的方法一劳永逸直接将nvidia指定为默认的runtime，代替runc

# Update the default configuration and restart
pushd $(mktemp -d)
(sudo cat /etc/docker/daemon.json 2>/dev/null || echo '{}') | \
    jq '. + {"default-runtime": "nvidia"}' | \
    tee tmp.json
sudo mv tmp.json /etc/docker/daemon.json
popd
sudo systemctl restart docker

# No need for nvidia-docker or --engine=nvidia
docker run --rm -it nvidia/cuda nvidia-smi

通过下面的命令查看是否成功

docker info | grep nvidia

如果出现下面的信息表示已经成功将nvidia变为默认的docker runtime，代表容器可以使用GPU资源了

root@gpu-node:~# docker info | grep nvidia
WARNING: No swap limit support
Runtimes: nvidia runc
Default Runtime: nvidia

GPU节点加入集群

完成上述步骤，按照master的log信息将GPU节点加入集群，之后就会看到有两个node

root@control-plane-1:~# kubectl get node
NAME              STATUS   ROLES    AGE   VERSION
control-plane-1   Ready    master   80m   v1.15.10
gpu-node          Ready    <none>   53m   v1.15.10

我这里对master设置了taint，不允许pod被调度到master上

root@control-plane-1:~# kubectl describe node control-plane-1 | grep Taints
Taints:             node-role.kubernetes.io/master:NoSchedule

安装插件

虽然容器可以使用GPU资源了，此时如果试着去跑官方给的GPU的测试deployment，会发现所有pod都在pending状态，查看pod状态会出现如下报错

Events:
  Type     Reason            Age                 From               Message
  ----     ------            ----                ----               -------
  Warning  FailedScheduling  48s (x18 over 24m)  default-scheduler  0/2 nodes are available: 2 Insufficient nvidia.com/gpu.

根据k8s官方文档对于GPU分配的说明，必须要安装另一个第三方的Nvidia插件才可以完成。

官方给出的插件对于GPU的分配不够智能和灵活，我们采用Aliyun的一个extender。

自带插件的说明，不建议使用
http://www.podman.cn/?/article/7

阿里云的extender说明，颗粒更细
https://blog.spider.im/post/gpu-share-in-k8s/

步骤有点多，直接按照官方安装指导书一步步来。

部署extender

cd /etc/kubernetes/
curl -O https://raw.githubusercontent.com/AliyunContainerService/gpushare-scheduler-extender/master/config/scheduler-policy-config.json
cd /tmp/
curl -O https://raw.githubusercontent.com/AliyunContainerService/gpushare-scheduler-extender/master/config/gpushare-schd-extender.yaml
kubectl create -f gpushare-schd-extender.yaml

修改scheduler配置

目标是将/etc/kubernetes/scheduler-policy-config.json加入到/etc/kubernetes/manifests/kube-scheduler.yaml配置中。需要注意的是需要先在/etc/kubernetes/manifests/目录外生成配置文件再复制到目录内，触发静态pod的自动更新

首先复制配置文件

sudo cp /etc/kubernetes/manifests/kube-scheduler.yaml /tmp

然后模仿这个示例添加下面的两部分内容

- --policy-config-file=/etc/kubernetes/scheduler-policy-config.json

- mountPath: /etc/kubernetes/scheduler-policy-config.json
  name: scheduler-policy-config
  readOnly: true

- hostPath:
      path: /etc/kubernetes/scheduler-policy-config.json
      type: FileOrCreate
  name: scheduler-policy-config

然后复制回去

sudo cp /tmp/kube-scheduler.yaml /etc/kubernetes/manifests/kube-scheduler.yaml

检查发现shceduler的pod重启了表示修改生效

配置Device Plugin

注意如果这里已经配置了官方的Device Plugin例如nvidia-device-plugin，需要先删除

wget https://raw.githubusercontent.com/AliyunContainerService/gpushare-device-plugin/master/device-plugin-rbac.yaml
kubectl create -f device-plugin-rbac.yaml
wget https://raw.githubusercontent.com/AliyunContainerService/gpushare-device-plugin/master/device-plugin-ds.yaml
kubectl create -f device-plugin-ds.yaml

将GPU节点打上label

kubectl label node <target_node> gpushare=true

安装kubectl的扩展

cd /usr/bin/
wget https://github.com/AliyunContainerService/gpushare-device-plugin/releases/download/v0.3.0/kubectl-inspect-gpushare
chmod u+x /usr/bin/kubectl-inspect-gpushare

之后就可以用下面的命令查看GPU的分配情况了

root@control-plane-1:~# kubectl-inspect-gpushare
NAME      IPADDRESS      GPU0(Allocated/Total)  GPU Memory(GiB)
gpu-node  172.29.57.202  0/7                    0/7
---------------------------------------------------
Allocated/Total GPU Memory In Cluster:
0/7 (0%)

我这里有7G的显存，所以显示为7。更详细的信息可以查看kubectl-inspect-gpushare -d

GPU分配测试

想要申请GPU，只需要声明aliyun.com/gpu-mem即可，单位是GiB。

例如如下测试文件deployment.yaml起两个pod，每个pod生成1GiB的GPU

apiVersion: apps/v1
kind: Deployment
metadata:
  name: nvidia-deployment
spec:
  replicas: 2
  selector:
    matchLabels:
      name: nvidia-gpu-deploy
  template:
    metadata:
      labels:
        name: nvidia-gpu-deploy
    spec:
      containers:
      - name: cuda-container
        image: ubuntu
        command: ["sleep"]
        args: ["100000"]
        resources:
          limits:
            aliyun.com/gpu-mem: 1

等两个pod起来以后查看分配情况

root@control-plane-1:~/nvidia-test# kubectl-inspect-gpushare -d

NAME:       gpu-node
IPADDRESS:  172.29.57.202

NAME                                NAMESPACE  GPU0(Allocated)  
nvidia-deployment-5f4bbd9457-h4rfk  default    1                
nvidia-deployment-5f4bbd9457-wqx8v  default    1                
Allocated :                         2 (28%)    
Total :                             7          
------------------------------------------------------------------------------------------------------


Allocated/Total GPU Memory In Cluster:  2/7 (28%)

删除kubeadm创建的集群

如果因为某些原因要销毁整个集群也很容易，因为是用kubeadm搭建的，只需要用下面的命令就可以

kubeadm reset

总结

在k8s中部署GPU机器学习程序已经成为一种趋势，虽然原生docker对GPU的支持没跟上，但是厂商的支持还是很多的，可以多去看看Nvidia的文档，很详细。

Cloudpods

开源、云原生的融合云平台

更多推荐

面向未来的 IT 基础设施管理架构——融合云（Unified IaaS）

随着数字化时代的到来，IT系统已成为人类社会正常运转不可或缺的组成部分。不远的未来，智能制造，5G和人工智能等技术将成为推动生产力发展的重要引擎，人类社会将面临前所未有的全面彻底的数字化浪潮。IT基础设施作为IT系统运行的平台和载体，是实现数字化的基石。在这场数字化浪潮中，企业必须积极拥抱云计算技术，采用符合技术发展趋势、面向未来的IT基础构架，才能在未来的竞争中赢得先机。一、云计算历经十余年

Cloudpods

Cloudpods负载均衡的功能介绍

作者:周有松今天的内容会从以下几个方面展开：负载均衡产品简介。主要介绍负载均衡作为一个云上产品，它的功能模型是怎样的，日常使用中会遇到的业务词汇负载均衡的功能与典型应用场景。这部分主要结合业务词汇，对负载均衡服务中常见的一些功能选项进行介绍，并举例介绍一些典型的应用场景最后，我们做一下总结，讨论一下负载均衡产品相比传统方式的优点一、产品简介 1. 以NGINX为例提到负载均衡，我们以

Cloudpods

使用Linux vfio将Nvidia GPU透传给QEMU虚拟机

Linux 上虚拟机 GPU 透传需要使用 vfio 的方式。主要是因为在 vfio 方式下对虚拟设备的权限和 DMA 隔离上做的更好。但是这么做也有个缺点，这个物理设备在主机和其他虚拟机都不能使用了。 qemu 直接使用物理设备本身命令行是很简单的，关键在于事先在主机上对系统、内核和物理设备的一些配置。单纯从 qemu 的命令行来看，其实和普通虚拟机启动就差了最后那个-device的选项。这