Kubernetes 运行一次性任务Job

容器按照持续运行的时间可分为两类：服务类容器和工作类容器。服务类容器通常持续提供服务，需要一直运行，比如 http server，daemon 等。工作类容器则是一次性任务，比如批处理程序，完成后容器就退出。Kubernetes 的 Deployment、ReplicaSet 和 DaemonSet 都用于管理服务类容器，对于工作类容器，我们用 Job。Job执行成功先看一个简单的 Job 配置文

富士康质检员张全蛋

3431人浏览 · 2020-11-06 15:18:02

富士康质检员张全蛋 · 2020-11-06 15:18:02 发布

Job

分为普通任务（Job）和定时任务（CronJob）一次性执行

应用场景：离线数据处理，视频解码等业务

容器按照持续运行的时间可分为两类：服务类容器和工作类容器。

服务类容器通常持续提供服务，需要一直运行，比如 http server，daemon 等。
工作类容器则是一次性任务，比如批处理程序，完成后容器就退出。

Kubernetes 的 Deployment、ReplicaSet 和 DaemonSet 都用于管理服务类容器，对于工作类容器，我们用 Job。

Job执行成功

先看一个简单的 Job 配置文件 myjob.yml：

[root@k8s-master ~]# cat myjob.yml 
apiVersion: batch/v1
kind: Job
metadata:  
  name: myjob
spec:  
  template:    
    metadata:      
      name: myjob    
    spec:      
      containers:      
      - name: hello      
        image: busybox    
        command: ["echo","hello k8s job"]      
      restartPolicy: Never

#Never  程序退出了就不再重启了，不管正确还是错误退出

batch/v1 是当前 Job 的 apiVersion。
指明当前资源的类型为 Job。
restartPolicy 指定什么情况下需要重启容器。对于 Job，只能设置为 Never 或者 OnFailure。对于其他 controller（比如 Deployment）可以设置为 Always 。

通过 kubectl apply -f myjob.yml 启动 Job。

[root@k8s-master ~]# kubectl apply -f myjob.yml 
job.batch/myjob created

kubectl get job 查看 Job 的状态：

[root@k8s-master ~]# kubectl get job
NAME    COMPLETIONS   DURATION   AGE
myjob   1/1           21s        9m58s

可以看到按照预期启动了一个 Pod，并且已经成功执行。（Pod 执行完毕后容器已经退出）

[root@k8s-master ~]# kubectl get pod
NAME          READY   STATUS      RESTARTS   AGE
myjob-q54fk   0/1     Completed   0          9m53s

kubectl logs 可以查看 Pod 的标准输出：

[root@k8s-master ~]# kubectl logs  myjob-q54fk
hello k8s job

以上是 Pod 成功执行的情况，如果 Pod 失败了会怎么样呢？

Job执行失败

先删除之前的 Job：

[root@k8s-master ~]# kubectl delete -f myjob.yml 
job.batch "myjob" deleted

修改 myjob.yml，故意引入一个错误，只需要修改command。

command: ["error command","hello k8s job"]

运行新的 Job 并查看状态

[root@k8s-master ~]# kubectl apply -f myjob.yml 
job.batch/myjob created
[root@k8s-master ~]# kubectl get job
NAME    COMPLETIONS   DURATION   AGE
myjob   0/1           9s         9s

当前 SUCCESSFUL 的 Pod 数量为 0，查看 Pod 的状态：

[root@k8s-master ~]# kubectl get pod 
NAME          READY   STATUS               RESTARTS   AGE
myjob-5fjdh   0/1     ContainerCannotRun   0          2m36s
myjob-7wfjz   0/1     ContainerCannotRun   0          2m
myjob-9w96k   0/1     ContainerCannotRun   0          59s
myjob-chlxz   0/1     ContainerCannotRun   0          100s
myjob-gdqbg   0/1     ContainerCannotRun   0          2m23s

可以看到有多个 Pod，状态均不正常。kubectl describe pod 查看某个 Pod 的启动日志：

[root@k8s-master ~]# kubectl describe pod  myjob-5fjdh
Events:
  Type     Reason     Age        From                 Message
  ----     ------     ----       ----                 -------
  Normal   Scheduled  <unknown>  default-scheduler    Successfully assigned default/myjob-5fjdh to k8s-master
  Normal   Pulling    3m22s      kubelet, k8s-master  Pulling image "busybox"
  Normal   Pulled     3m13s      kubelet, k8s-master  Successfully pulled image "busybox"
  Normal   Created    3m12s      kubelet, k8s-master  Created container hello
  Warning  Failed     3m12s      kubelet, k8s-master  Error: failed to start container "hello": Error response from daemon: OCI runtime create failed: container_linux.go:349: starting container process caused "exec: \"error command\": executable file not found in $PATH": unknown

日志显示没有可执行程序，符合我们的预期。

下面解释一个现象：为什么 kubectl get pod 会看到这么多个失败的 Pod？

原因是：当第一个 Pod 启动时，容器失败退出，根据 restartPolicy: Never，此失败容器不会被重启，但 Job DESIRED 的 Pod 是 1，目前 SUCCESSFUL 为 0，不满足，所以 Job controller 会启动新的 Pod，直到 SUCCESSFUL 为 1。对于我们这个例子，SUCCESSFUL 永远也到不了 1，所以 Job controller 会一直创建新的 Pod。为了终止这个行为，只能删除 Job。

[root@k8s-master ~]# kubectl delete -f myjob.yml 
job.batch "myjob" deleted

如果将 restartPolicy 设置为 OnFailure 会怎么样？下面我们实践一下，修改 myjob.yml 后重新启动。

[root@k8s-master ~]# kubectl get pod
NAME          READY   STATUS             RESTARTS   AGE
myjob-m5h8w   0/1     CrashLoopBackOff   4          3m57s

这里只有一个 Pod，不过 RESTARTS 为 4，而且不断增加，说明 OnFailure 生效，容器失败后会自动重启。

并行执行 Job

有时，我们希望能同时运行多个 Pod，提高 Job 的执行效率。这个可以通过 parallelism 设置。

[root@k8s-master ~]# cat job.yml 
apiVersion: batch/v1
kind: Job
metadata:  
  name: myjob
spec:  
  parallelism: 2
  template:    
    metadata:      
      name: myjob    
    spec:      
      containers:      
      - name: hello      
        image: busybox    
        command: ["echo","hello k8s job"]      
      restartPolicy: OnFailure

这里我们将并行的 Pod 数量设置为 2，实践一下：

[root@k8s-master ~]# kubectl apply -f job.yml 
job.batch/myjob created

[root@k8s-master ~]# kubectl get job
NAME    COMPLETIONS   DURATION   AGE
myjob   0/1 of 2      18s        18s
[root@k8s-master ~]# kubectl get pod
NAME          READY   STATUS      RESTARTS   AGE
myjob-5fjdh   0/1     Completed   0          21s
myjob-tdhxz   0/1     Completed   0          21s

Job 一共启动了两个 Pod，而且 AGE 相同，可见是并行运行的。

我们还可以通过 completions 设置 Job 成功完成 Pod 的总数：

spec: 
  completions: 6 
  parallelism: 2

上面配置的含义是：每次运行两个 Pod，直到总共有 6 个 Pod 成功完成。实践一下：

[root@k8s-master ~]# kubectl get job
NAME    COMPLETIONS   DURATION   AGE
myjob   2/6           22s        22s
[root@k8s-master ~]# kubectl get job
NAME    COMPLETIONS   DURATION   AGE
myjob   5/6           33s        33s
[root@k8s-master ~]# kubectl get job
NAME    COMPLETIONS   DURATION   AGE
myjob   6/6           35s        42s

[root@k8s-master ~]# kubectl get pod
NAME          READY   STATUS      RESTARTS   AGE
myjob-7wfjz   0/1     Completed   0          49s
myjob-9w96k   0/1     Completed   0          29s
myjob-chlxz   0/1     Completed   0          44s
myjob-cqgd2   0/1     Completed   0          25s
myjob-gdqbg   0/1     Completed   0          49s
myjob-m5h8w   0/1     Completed   0          22s

DESIRED 和 SUCCESSFUL 均为 6，符合预期。如果不指定 completions 和 parallelism，默认值均为 1。

上面的例子只是为了演示 Job 的并行特性，实际用途不大。不过现实中确实存在很多需要并行处理的场景。比如批处理程序，每个副本（Pod）都会从任务池中读取任务并执行，副本越多，执行时间就越短，效率就越高。这种类似的场景都可以用 Job 来实现。

Cloudpods

开源、云原生的融合云平台

更多推荐

面向未来的 IT 基础设施管理架构——融合云（Unified IaaS）

随着数字化时代的到来，IT系统已成为人类社会正常运转不可或缺的组成部分。不远的未来，智能制造，5G和人工智能等技术将成为推动生产力发展的重要引擎，人类社会将面临前所未有的全面彻底的数字化浪潮。IT基础设施作为IT系统运行的平台和载体，是实现数字化的基石。在这场数字化浪潮中，企业必须积极拥抱云计算技术，采用符合技术发展趋势、面向未来的IT基础构架，才能在未来的竞争中赢得先机。一、云计算历经十余年

Cloudpods

Cloudpods负载均衡的功能介绍

作者:周有松今天的内容会从以下几个方面展开：负载均衡产品简介。主要介绍负载均衡作为一个云上产品，它的功能模型是怎样的，日常使用中会遇到的业务词汇负载均衡的功能与典型应用场景。这部分主要结合业务词汇，对负载均衡服务中常见的一些功能选项进行介绍，并举例介绍一些典型的应用场景最后，我们做一下总结，讨论一下负载均衡产品相比传统方式的优点一、产品简介 1. 以NGINX为例提到负载均衡，我们以

Cloudpods

使用Linux vfio将Nvidia GPU透传给QEMU虚拟机

Linux 上虚拟机 GPU 透传需要使用 vfio 的方式。主要是因为在 vfio 方式下对虚拟设备的权限和 DMA 隔离上做的更好。但是这么做也有个缺点，这个物理设备在主机和其他虚拟机都不能使用了。 qemu 直接使用物理设备本身命令行是很简单的，关键在于事先在主机上对系统、内核和物理设备的一些配置。单纯从 qemu 的命令行来看，其实和普通虚拟机启动就差了最后那个-device的选项。这