kubernetes kubelet挂掉问题分析

环境描述kubernetes 组建的运行方式kubelet : systemd 运行其他都是docker起的容器问题描述1.有pod状态处于Unknow状态[root@master-64 ~]# kubectl get pods adminapi-www-idc-1846448753-k5gbm -n yuntu-www-idc -owideNAME

qinzhao168

21469人浏览 · 2018-01-30 23:40:43

qinzhao168 · 2018-01-30 23:40:43 发布

环境描述

kubernetes 组建的运行方式

kubelet : systemd 运行
其他都是docker起的容器

问题描述

1.有pod状态处于Unknow状态

[root@master-64 ~]# kubectl get pods adminapi-www-idc-1846448753-k5gbm -n yuntu-www-idc -owide
NAME                                READY     STATUS    RESTARTS   AGE       IP               NODE
adminapi-www-idc-1846448753-k5gbm   1/1       Unknown   0          14d       192.168.217.25   slave-203

2.docker 进程已死

[root@slave-203 ~]# systemctl status docker
● docker.service - Docker Application Container Engine
   Loaded: loaded (/usr/lib/systemd/system/docker.service; enabled; vendor preset: disabled)
   Active: failed (Result: exit-code) since Tue 2018-01-30 18:27:44 CST; 2h 54min ago
     Docs: https://docs.docker.com
  Process: 754 ExecStart=/usr/bin/dockerd (code=exited, status=1/FAILURE)
 Main PID: 754 (code=exited, status=1/FAILURE)

Jan 30 18:27:41 slave-203 systemd[1]: Starting Docker Application Container Engine...
Jan 30 18:27:43 slave-203 dockerd[754]: time="2018-01-30T18:27:43.633366759+08:00" level=info msg="libcontainerd: new containerd process, pid: 1895"
Jan 30 18:27:44 slave-203 dockerd[754]: time="2018-01-30T18:27:44.651806419+08:00" level=error msg="[graphdriver] prior storage driver \"devicemap...thinpool"
Jan 30 18:27:44 slave-203 dockerd[754]: time="2018-01-30T18:27:44.652140761+08:00" level=fatal msg="Error starting daemon: error initializing grap...thinpool"
Jan 30 18:27:44 slave-203 systemd[1]: docker.service: main process exited, code=exited, status=1/FAILURE
Jan 30 18:27:44 slave-203 systemd[1]: Failed to start Docker Application Container Engine.
Jan 30 18:27:44 slave-203 systemd[1]: Unit docker.service entered failed state.
Jan 30 18:27:44 slave-203 systemd[1]: docker.service failed.

[root@slave-203 ~]# journalctl -f -u kubelet
-- Logs begin at Tue 2018-01-30 18:27:28 CST. --
Jan 30 18:27:44 slave-203 systemd[1]: Dependency failed for kubernetes Kubelet.
Jan 30 18:27:44 slave-203 systemd[1]: Job kubelet.service/start failed with result 'dependency'.

系统日志docker

....
Jan 30 08:06:15 slave-203 kubelet: ERROR:0130 08:06:15.196289    5516 docker_sandbox.go:492] Failed to retrieve checkpoint for sandbox "b85076ca2595020a4caa26993548d02ec68300f396a4c0096a0bf4650b1d3d74": checkpoint is not found.
....
Jan 30 18:27:43 slave-203 dockerd: time="2018-01-30T18:27:43.633366759+08:00" level=info msg="libcontainerd: new containerd process, pid: 1895"
Jan 30 18:27:44 slave-203 dockerd: time="2018-01-30T18:27:44.651806419+08:00" level=error msg="[graphdriver] prior storage driver \"devicemapper\" failed: devicemapper: Non existing device docker-thinpool"
Jan 30 18:27:44 slave-203 dockerd: time="2018-01-30T18:27:44.652140761+08:00" level=fatal msg="Error starting daemon: error initializing graphdriver: devicemapper: Non existing device docker-thinpool"
Jan 30 18:27:44 slave-203 systemd: docker.service: main process exited, code=exited, status=1/FAILURE
Jan 30 18:27:44 slave-203 systemd: Unit docker.service entered failed state.
Jan 30 18:27:44 slave-203 systemd: docker.service failed.
Jan 30 18:27:51 slave-203 lvm: 1 logical volume(s) in volume group "docker" now active

系统日志kubelet

...
Jan 30 20:08:56 slave-203 kubelet: ERROR:0130 20:08:56.282727    5516 kubelet_network.go:412] Failed to ensure marking rule for KUBE-MARK-MASQ: error checking rule: exit status 4: iptables: Resource temporarily unavailable.
...
Jan 30 20:17:57 slave-203 kubelet: INFO:0130 20:17:57.328764    5516 qos_container_manager_linux.go:286] [ContainerManager]: Updated QoS cgroup configuration
Jan 30 20:18:06 slave-203 kubelet: INFO:0130 20:18:06.569694    5516 server.go:794] GET /metrics: (4.914929ms) 200 [[Prometheus/2.0.0] 10.39.1.62:58616]
Jan 30 18:27:44 slave-203 systemd: Job kubelet.service/start failed with result 'dependency'.

这个问题现在还处于unknow状态，紧急解决办法就是
执行以下命令

 systemctl restart docker

END

向您推荐>>Eolink开发者社区

权威｜前沿｜技术｜干货｜国内首个API全生命周期开发者社区

更多推荐

深入理解 Mocha 测试框架：从零实现一个 Mocha

前言什么是自动化测试自动化测试在很多团队中都是Devops环节中很难执行起来的一个环节，主要原因在于测试代码的编写工作很难抽象，99%的场景都需要和业务强绑定，而且写测试代码的编写工作量往往比编写实际业务代码的工作量更多。在一些很多业务场景中投入产出比很低，适合写自动化测试的应该是那些中长期业务以及一些诸如组件一样的基础库。自动化测试是个比较大的概念，其中分类也比较多，比如单元测试，端对端测试，集

云原生

ELK实现containerd的容器日志采集展示【基于logging的全栈监测】

企业级ELK Stack构建介绍

云原生

(20200916 Solved)docker-compose up创建容器自动退出

问题描述如题，创建容器后自动退出了。并且docker start container无效解决方案原因是缺失了控制终端的配置，需要在docker-compose.yml中增加tty:true ，有时候这样也不行，需要再增加一个command:/bin/bash，命令不一定是这个，需要是一个不会退出的命令，然后用-d后台启动容器。Referencesdocker-compose启动容器后自动退出...