k8s Job详解

文章目录Job机制参考资料Job机制Job用来创建1个或多个Pod,并保证指定数量(.spec.completions)的Pod成功完成。当一个Pod成功完成时(.status.phase=Succeeded)，Job会记录已完成的Pod的数量，但完成的数量达到指定值时，这个Job就完成了。可以通过以下两种方式来判断一个Job是否已完成：.status.completionTime是否为空。Job

祈晴小义

12990人浏览 · 2020-08-01 20:55:06

祈晴小义 · 2020-08-01 20:55:06 发布

文章目录

Job机制

Job用来创建1个或多个Pod,并保证指定数量(.spec.completions)的Pod成功完成。当一个Pod成功完成时(.status.phase=Succeeded)，Job会记录已完成的Pod的数量，但完成的数量达到指定值时，这个Job就完成了。可以通过以下3种方式来判断一个Job是否已完成：

.status.completionTime是否为空。Job完成时该字段会被设置成Job完成的时间，否则为空
.spec.completions和.status.succeeded是否相等,即对比期望完成数和已成功数，当二者相等时，表示Job已经完成
.status.conditions[0].type：type为Complete和Failed时，分别表示Job执行成功和失败

Pod的中的容器可能因为各种各样的原因失败，比如退出码不为0、超出内存限制被kill掉，容器失败分两种情况：

.spec.template.spec.restartPolicy = "OnFailure":容器失败后会不断重启，直到成功（退出码为0）
.spec.template.spec.restartPolicy = "Never"：容器不会重启，Pod的状态转为Failed

当Pod执行失败时，Job会不断创建一个新的Pod进行重试，直到失败次数达到.spec.backoffLimit指定的数值，整个Job的执行失败。可以通过判断.status.failed和.spec.backoffLimit是否相等，即已失败数是否已经达到上限，来判断Job是否已经执行失败。如下，当.spec.backoffLimit设置为3时，.status.failed已经达到3，Job失败，不会再尝试创建新的Pod：

kubectl get -n demo jobs j-centos-2020-08-01-15-19-55-w -oyaml |grep status -A 10
status:
  conditions:
  - lastProbeTime: "2020-08-01T07:21:04Z"
    lastTransitionTime: "2020-08-01T07:21:04Z"
    message: Job has reached the specified backoff limit
    reason: BackoffLimitExceeded
    status: "True"
    type: Failed
  failed: 3
  startTime: "2020-08-01T07:19:55Z"

如果Pod在执行过程中被意外删除(如使用kubectl delete)，Job会重新创建一个新的Pod。