kubernetes集群node维护的正确姿态

目录kubernetes处理node的命令详解cordon、drain、delete node区别cordondrain 驱逐节点delete 节点kubectl delete node 详解正常情况无node绑定关系有绑定关系总结kubernetes处理node的命令详解cordon、drain、delete node区别主要目的：导致node处于...

li_101357

2816人浏览 · 2019-05-04 14:04:52

li_101357 · 2019-05-04 14:04:52 发布

kubernetes处理node的命令详解

cordon、drain、delete node区别

cordon

drain 驱逐节点

delete 节点

kubectl delete node 详解

正常情况无node绑定关系

有绑定关系

总结

kubernetes处理node的命令详解

cordon、drain、delete node区别

主要目的：导致node处于不可调度状态，新创建的pod容器不会调度在node上。

cordon

将node置为SchedulingDisabled不可调度状态，后续的新创建pod容器时scheduler调度不会考虑该node
旧的pod容器不会正常受影响，仍可以对外提供正常服务。(特殊情况：pod容器如果跟node绑定的话，容器下次更新就不会回到原宿主机，该情况如何处理呢？可能设置成不可调度状态就不太合适。调度器预调度策略)
恢复调度 kubectl uncordon node

drain 驱逐节点

设置该node为不可调度状态 cordon
驱逐node节点上pod，使其在其他节点上创建。gracefully terminate all pods
恢复调度 kubectl uncordon node

delete 节点

delete node后 kubernetes集群管控端获取不到node信息。master节点删除该node，失去对其控制，master不可对其恢复
驱逐node上的pod容器。(如何驱赶呢？参考 https://blog.csdn.net/li_101357/article/details/89606269 ，主要是podGCcontroller来做这件事情) 疑问是：master删除node了，GC怎么删除呢？强制删除
恢复调度，需要进入node节点，重启kubelet即可

kubectl delete node 详解

正常情况无node绑定关系

kubectl delete node之后

日志显示delete node之后GC pod的过程

通过statefulapp controller直接自动拉起，并在其他的node上创建完毕。这种情况使用大多数，不关系pod容器IP是什么，只需要能够正常运行起来提供服务即可。

有绑定关系

1. 正常创建时，在scheduler模块发现该node被删，预调度策略匹配不上，导致容器pending状态。源码中sts创建pod：

2. (定制) 创建pod前，需要做一些其他工作(添加taint或者toleration)，获取该node信息失败，导致都没有发出创建请求。

// processNextWorkItem dequeues items, processes them, and marks them done. It enforces that the syncHandler is never
// invoked concurrently with the same key.
func (ssc *StatefulSetController) processNextWorkItem() bool {
	key, quit := ssc.queue.Get()
	if quit {
		return false
	}
	defer ssc.queue.Done(key)
	if err := ssc.sync(key.(string)); err != nil {
        // 错误日志打印地方
		utilruntime.HandleError(fmt.Errorf("Error syncing StatefulSet %v, requeuing: %v", key.(string), err))
        // 重新入限速队列
		ssc.queue.AddRateLimited(key)
	} else {
		ssc.queue.Forget(key)
	}
	return true
}

对象键重新入限速队列。

// 队列初始化
queue:           workqueue.NewNamedRateLimitingQueue(workqueue.DefaultControllerRateLimiter(), "statefulset")

// 默认限速队列。  指数级增长的限速器 和 漏桶限速器，每次取两者限速器的最大值
func DefaultControllerRateLimiter() RateLimiter {
	return NewMaxOfRateLimiter(
		NewItemExponentialFailureRateLimiter(5*time.Millisecond, 1000*time.Second),
		// 10 qps, 100 bucket size.  This is only for retry speed and its only the overall factor (not per item)
		&BucketRateLimiter{Limiter: rate.NewLimiter(rate.Limit(10), 100)},
	)
}

所以对象键入队列之后，如果没有正常的时间更新发生，系统等待sync的时间会越来越长，导致最大是1000s。

就解释了，当你添加删除的node到集群中时，可能等待的时间最长是1000s，主要取决于上次什么时候开始进行同步的。

总结

分析完之后，也就明白了运维同学delete node之后自己的一系列疑惑。还是要多分析，多看源码，才能理解掌握的更到位！

Cloudpods

开源、云原生的融合云平台

更多推荐

面向未来的 IT 基础设施管理架构——融合云（Unified IaaS）

随着数字化时代的到来，IT系统已成为人类社会正常运转不可或缺的组成部分。不远的未来，智能制造，5G和人工智能等技术将成为推动生产力发展的重要引擎，人类社会将面临前所未有的全面彻底的数字化浪潮。IT基础设施作为IT系统运行的平台和载体，是实现数字化的基石。在这场数字化浪潮中，企业必须积极拥抱云计算技术，采用符合技术发展趋势、面向未来的IT基础构架，才能在未来的竞争中赢得先机。一、云计算历经十余年

Cloudpods

Cloudpods负载均衡的功能介绍

作者:周有松今天的内容会从以下几个方面展开：负载均衡产品简介。主要介绍负载均衡作为一个云上产品，它的功能模型是怎样的，日常使用中会遇到的业务词汇负载均衡的功能与典型应用场景。这部分主要结合业务词汇，对负载均衡服务中常见的一些功能选项进行介绍，并举例介绍一些典型的应用场景最后，我们做一下总结，讨论一下负载均衡产品相比传统方式的优点一、产品简介 1. 以NGINX为例提到负载均衡，我们以

Cloudpods

使用Linux vfio将Nvidia GPU透传给QEMU虚拟机

Linux 上虚拟机 GPU 透传需要使用 vfio 的方式。主要是因为在 vfio 方式下对虚拟设备的权限和 DMA 隔离上做的更好。但是这么做也有个缺点，这个物理设备在主机和其他虚拟机都不能使用了。 qemu 直接使用物理设备本身命令行是很简单的，关键在于事先在主机上对系统、内核和物理设备的一些配置。单纯从 qemu 的命令行来看，其实和普通虚拟机启动就差了最后那个-device的选项。这

Cloudpods

所有评论(0)

查看更多评论

li_101357

@li_101357

已为社区贡献7条内容