kubernetes中Ceph PV导致Pod无法迁移

背景Ceph RBD目前存储模式只支持RWO、ROX，因此pv yaml中将其配置为RWO，这样至少可写，之后准备pvc和业务yaml，使其被挂载到容器中的数据库读写目录。apiVersion: v1kind: PersistentVolumemetadata:name: user-pvnamespace: sock-shoplabels:pv: user-pv...

Penccc

3713人浏览 · 2018-11-22 17:10:26

Penccc · 2018-11-22 17:10:26 发布

背景

Ceph RBD目前存储模式只支持RWO、ROX，因此pv yaml中将其配置为RWO，这样至少可写，之后准备pvc和业务yaml，使其被挂载到容器中的数据库读写目录。

apiVersion: v1
kind: PersistentVolume
metadata:
  name: user-pv
  namespace: sock-shop
  labels:
    pv: user-pv
spec:
  capacity:
    storage: 1Gi
  accessModes:
    - ReadWriteOnce
  rbd:
    monitors:
      - 192.168.22.47:6789
      - 192.168.22.48:6789
      - 192.168.22.49:6789
    pool: sock_shop
    image: user-pv
    user: admin
    secretRef:
      name: ceph-secret
    fsType: ext4
    readOnly: false
  persistentVolumeReclaimPolicy: Recycle

出现的问题

测试过程中关闭了挂载该PV的Pod所在的node，发现该Pod无法被迁移，报错如下：

Multi-Attach error for volume "user-pv" Volume is already used by pod(s) user-db-79f7876cbc-dl8b8
Unable to mount volumes for pod "user-db-79f7876cbc-chddt_sock-shop(1dd2393e-ed51-11e8-95af-001a4ad9b270)": timeout expired waiting for volumes to attach or mount for pod "sock-shop"/"user-db-79f7876cbc-chddt". list of unmounted volumes=[data-volume]. list of unattached volumes=[tmp-volume data-volume default-token-l2g8x]

问题分析

k8s会判断如果该volume禁用了多pod/node挂载的话，再去判断当attach上该volume的数量>0的时候就让该volume无法被新启的pod挂载，见下

        if rc.isMultiAttachForbidden(volumeToAttach.VolumeSpec) {
            nodes := rc.actualStateOfWorld.GetNodesForVolume(volumeToAttach.VolumeName)
            if len(nodes) > 0 {
                if !volumeToAttach.MultiAttachErrorReported {
                    rc.reportMultiAttachError(volumeToAttach, nodes)
                    rc.desiredStateOfWorld.SetMultiAttachError(volumeToAttach.VolumeName, volumeToAttach.NodeName)
                }
                continue
            }
        }

而对isMultiAttachForbidden的判断则是对AccessModes，而Ceph的AccessModes并不支持RWX，仅支持RWO(不考虑RO)，而之前挂载该volume的Pod在运行Node宕机后，集群仍然认为他是Running状态，因此其Volume资源未释放，因此出现新启动的Pod仍不可挂载volume的问题，见下

    if volumeSpec.PersistentVolume != nil {
        // Check for persistent volume types which do not fail when trying to multi-attach
        if volumeSpec.PersistentVolume.Spec.VsphereVolume != nil {
            return false
        }

        if len(volumeSpec.PersistentVolume.Spec.AccessModes) == 0 {
            // No access mode specified so we don't know for sure. Let the attacher fail if needed
            return false
        }

        // check if this volume is allowed to be attached to multiple PODs/nodes, if yes, return false
        for _, accessMode := range volumeSpec.PersistentVolume.Spec.AccessModes {
            if accessMode == v1.ReadWriteMany || accessMode == v1.ReadOnlyMany {
                return false
            }
        }
        return true
    }

这样问题就清楚了，Pod迁移时会将之前的Pod置于Unknown状态，这样会导致k8s内部对RWO的限制影响到了Pod迁移，虽然Ceph RBD不支持RWX的模式，但是在PV、PVC端执行流程中并未有限制，也就是说PV、PVC端并不会因为你是Ceph RBD或者Glusterfs就禁止你的PV申请，因此将accessModes设置成RWX可以解决问题。但是目前还有一个问题，如果Ceph RBD并不支持RWX，将其accessModes强行设置为RWX会不会出问题？

实际是上不会的，见下代码，首先这里会判断accessModes，实际上这里本身有个bug，但已经被我修复掉了，会在后面的文章聊到，先看修改后的，如果判断出非ReadOnlyMany，则必然会验证util.rbdStatus来判断这个rbd pv是否已经被使用了。

func (util *RBDUtil) AttachDisk(b rbdMounter) (string, error) {
。。。
		if b.accessModes != nil {
			// If accessModes only contain ReadOnlyMany, we don't need check rbd status of being used.
			if len(b.accessModes) == 1 && b.accessModes[0] == v1.ReadOnlyMany {
				needValidUsed = false
			}
		}
		err := wait.ExponentialBackoff(backoff, func() (bool, error) {
			used, rbdOutput, err := util.rbdStatus(&b)
			if err != nil {
				return false, fmt.Errorf("fail to check rbd image status with: (%v), rbd output: (%s)", err, rbdOutput)
			}
			return !needValidUsed || !used, nil
		})
。。。
}

那么如何实现RBD pv使用判断的呢？实现就是通过rbd status看是否有watcher，如果该rbd被map过了，则必然会出现watcher，也就是说对于RWX和RWO，其都只能被挂载一次，回到最初的问题，即便node宕机了，即便脑裂了，只要该pv被map了，也就是被Pod使用中，新的Pod就无法启动。换句话说就是我们的PV迁移流程是：启动新Pod，等待旧Pod; 有两种情况，其一，出现脑裂，旧Pod仍然挂载上了PV，这时即便调度了新Pod，由于判断watcher已存在，该Pod的启动仍然会失败，RBD不会出现多次RW挂载的问题。其二，未出现脑裂，旧主机宕机，这时候新Pod判断watcher不存在，Pod重新调度成功。

// rbdStatus runs `rbd status` command to check if there is watcher on the image.
func (util *RBDUtil) rbdStatus(b *rbdMounter) (bool, string, error) {
	var err error
	var output string
	var cmd []byte

	// If we don't have admin id/secret (e.g. attaching), fallback to user id/secret.
	id := b.adminId
	secret := b.adminSecret
	if id == "" {
		id = b.Id
		secret = b.Secret
	}

	mon := util.kernelRBDMonitorsOpt(b.Mon)
	// cmd "rbd status" list the rbd client watch with the following output:
	//
	// # there is a watcher (exit=0)
	// Watchers:
	//   watcher=10.16.153.105:0/710245699 client.14163 cookie=1
	//
	// # there is no watcher (exit=0)
	// Watchers: none
	//
	// Otherwise, exit is non-zero, for example:
	//
	// # image does not exist (exit=2)
	// rbd: error opening image kubernetes-dynamic-pvc-<UUID>: (2) No such file or directory
	//
	glog.V(4).Infof("rbd: status %s using mon %s, pool %s id %s key %s", b.Image, mon, b.Pool, id, secret)
	cmd, err = b.exec.Run("rbd",
		"status", b.Image, "--pool", b.Pool, "-m", mon, "--id", id, "--key="+secret)
	output = string(cmd)

	if err, ok := err.(*exec.Error); ok {
		if err.Err == exec.ErrNotFound {
			glog.Errorf("rbd cmd not found")
			// fail fast if command not found
			return false, output, err
		}
	}

	// If command never succeed, returns its last error.
	if err != nil {
		return false, output, err
	}

	if strings.Contains(output, imageWatcherStr) {
		glog.V(4).Infof("rbd: watchers on %s: %s", b.Image, output)
		return true, output, nil
	} else {
		glog.Warningf("rbd: no watchers on %s", b.Image)
		return false, output, nil
	}
}

Cloudpods

开源、云原生的融合云平台

更多推荐

面向未来的 IT 基础设施管理架构——融合云（Unified IaaS）

随着数字化时代的到来，IT系统已成为人类社会正常运转不可或缺的组成部分。不远的未来，智能制造，5G和人工智能等技术将成为推动生产力发展的重要引擎，人类社会将面临前所未有的全面彻底的数字化浪潮。IT基础设施作为IT系统运行的平台和载体，是实现数字化的基石。在这场数字化浪潮中，企业必须积极拥抱云计算技术，采用符合技术发展趋势、面向未来的IT基础构架，才能在未来的竞争中赢得先机。一、云计算历经十余年

Cloudpods

Cloudpods负载均衡的功能介绍

作者:周有松今天的内容会从以下几个方面展开：负载均衡产品简介。主要介绍负载均衡作为一个云上产品，它的功能模型是怎样的，日常使用中会遇到的业务词汇负载均衡的功能与典型应用场景。这部分主要结合业务词汇，对负载均衡服务中常见的一些功能选项进行介绍，并举例介绍一些典型的应用场景最后，我们做一下总结，讨论一下负载均衡产品相比传统方式的优点一、产品简介 1. 以NGINX为例提到负载均衡，我们以

Cloudpods

使用Linux vfio将Nvidia GPU透传给QEMU虚拟机

Linux 上虚拟机 GPU 透传需要使用 vfio 的方式。主要是因为在 vfio 方式下对虚拟设备的权限和 DMA 隔离上做的更好。但是这么做也有个缺点，这个物理设备在主机和其他虚拟机都不能使用了。 qemu 直接使用物理设备本身命令行是很简单的，关键在于事先在主机上对系统、内核和物理设备的一些配置。单纯从 qemu 的命令行来看，其实和普通虚拟机启动就差了最后那个-device的选项。这

Cloudpods

所有评论(0)

查看更多评论

Penccc

@u011497554

已为社区贡献2条内容