[k8s]从BGP到Calico

之前文章,flannel的udp和vxlan模型.这两个有个共同特征.就是用户的容器都连接在 docker0 网桥上。而网络插件则在宿主机上创建了一个特殊的设备（UDP 模式创建的是 TUN 设备，VXLAN 模式创建的则是 VTEP 设备），docker0 与这个设备之间，通过 IP 转发(路由表)进行协作.网络插件真正要做的事情，则是通过某种方法，把不同宿主机上的特殊设备连通，从而达到容器跨主

责任全在mg

1257人浏览 · 2021-01-13 16:29:06

责任全在mg · 2021-01-13 16:29:06 发布

之前文章,flannel的udp和vxlan模型.这两个有个共同特征.

就是用户的容器都连接在 docker0 网桥上。而网络插件则在宿主机上创建了一个特殊的设备（UDP 模式创建的是 TUN 设备，VXLAN 模式创建的则是 VTEP 设备），docker0 与这个设备之间，通过 IP 转发(路由表)进行协作.网络插件真正要做的事情，则是通过某种方法，把不同宿主机上的特殊设备连通，从而达到容器跨主机通信的目的。

1.host-gw模型

当需要从容器1请求到容器2时.

$ ip route
...
10.244.1.0/24 via 10.168.0.3 dev eth0

1.根据配置,会从eth0出去,mac地址是node2地址,目的ip肯定是10.244.1.3

2.node2收到后,会根据路由,将包转发给容器cni0,cni0转发给10.244.1.3.

可以看到node2充当了容器间请求的网关!这也是flannel-gw的由来

这种模式下，容器通信的过程就免除了额外的封包和解包带来的性能损耗。根据实际的测试，host-gw 的性能损失大约在 10% 左右，而其他所有基于 VXLAN“隧道”机制的网络方案，性能损失都在 20%~30% 左右

Flannel host-gw 模式必须要求集群宿主机之间是二层连通的.就是node1和node2在一个局域网.通过arp协议可以访问到.

那么如果node1和node2不在一个局域网咋整,那么就需要通过几个子网来达到通信的目的.就是多个路由器.

那么还有一个保证,这几个路由器的转发表也要有相应的配置,不能去的时候可以去,回不来了就尴尬了

Calico实现

calico和flannel-gw的实现是一样的.只不过他不是通过etcd来维护这个路由表的信息,而是通过一个BGP的组件.

BGP:大规模网络中实现节点路由信息共享的一种协议。

用来维护集群路由信息.如果我们不用BGP,我们就需要手动去维护路由表,以达到网络互通.不太现实,而BGP ,每个边界网关上都会运行着一个小程序，它们会将各自的路由表信息，通过 TCP 传输给其他的边界网关。而其他边界网关上的这个小程序，则会对收到的这些数据进行分析，然后将需要的信息添加到自己的路由表里.

calico组成:

Calico的CNI插件,这是Calico与Kubernetes对接的部分
Felix:它是一个 DaemonSet,负责在宿主机上插入路由规则(写入 Linux 内核的 FIB 转发信息库),以及维护 Calico 所需的网络设备等工作.
BIRD:它就是BGP的客户端,专门负责在集群里分发路由规则信息.

实现

不会有任何网桥!!!! 需要为每一个容器设置一个Vethpear,设置到宿主机上.

1.目的mac地址是node2的mac地址;目的ip地址是容器ip10.233.2.3.

2.node2收到后,mac地址是自己,那么接受包; 目的ip不是自己,那么去查询route表,应该发给容器4.ending!!

从流程也能看出Flannel host-gw和Calico要求集群宿主机之间是二层连通的

如果node1和node2不在一个子网,那node1根本没办法把包发送给node2.

Calico IPIP

既然没办法直接将包发送到node2,那么就让node1携带着容器1的请求通过路由器发送给node2吧..

谁来封装呢?flannel是TUN或者VTEP. 这里是tun0设备.如下,之后会被内核的IPIP驱动接管,然后封装,之后就是正常的设置目的mac是路由器的mac,目的ip是node2的ip.

10.233.2.0/24 via 192.168.2.2 tunl0

参考:https://time.geekbang.org/column/article/67775?utm_term=zeusV2IJA&utm_source=dilan 深入剖析kubernates

总结

Kubernetes通过一个叫做CNI的接口，维护了一个单独的网桥来代替docker0。这个网桥的名字就叫作：CNI网桥，它在宿主机上的设备名称默认是：cni0。

容器“跨主通信”的三种主流实现方法：UDP、host-gw、VXLAN。之前介绍了UDP和VXLAN，它们都属于隧道模式，需要封装和解封装。接下来介绍一种纯三层网络方案，host-gw模式和Calico项目

Host-gw模式通过在宿主机上添加一个路由规则：

<目的容器IP地址段> via <网关的IP地址> dev eth0

IP包在封装成帧发出去的时候，会使用路由表里的“下一跳”来设置目的MAC地址。这样，它就会通过二层网络到达目的宿主机。
这个三层网络方案得以正常工作的核心，是为每个容器的IP地址，找到它所对应的，“下一跳”的网关。所以说，Flannel host-gw模式必须要求集群宿主机之间是二层连通的，如果宿主机分布在了不同的VLAN里（三层连通），由于需要经过的中间的路由器不一定有相关的路由配置（出于安全考虑，公有云环境下，宿主机之间的网关，肯定不会允许用户进行干预和设置），部分节点就无法找到容器IP的“下一条”网关了，host-gw就无法工作了。

Calico项目提供的网络解决方案，与Flannel的host-gw模式几乎一样，也会在宿主机上添加一个路由规则：

<目的容器IP地址段> via <网关的IP地址> dev eth0

其中，网关的IP地址，正是目的容器所在宿主机的IP地址，而正如前面所述，这个三层网络方案得以正常工作的核心，是为每个容器的IP地址，找到它所对应的，“下一跳”的网关。区别是如何维护路由信息：
Host-gw : Flannel通过Etcd和宿主机上的flanneld来维护路由信息
Calico: 通过BGP（边界网关协议）来实现路由自治，所谓BGP，就是在大规模网络中实现节点路由信息共享的一种协议。

隧道技术（需要封装包和解包，因为需要伪装成宿主机的IP包，需要三层链通）：Flannel UDP / VXLAN / Calico IPIP
三层网络（不需要封包和解封包，需要二层链通）：Flannel host-gw / Calico 普通模式

三层和隧道的异同：
相同之处是都实现了跨主机容器的三层互通，而且都是通过对目的 MAC 地址的操作来实现的；不同之处是三层通过配置下一条主机的路由规则来实现互通，隧道则是通过通过在 IP 包外再封装一层 MAC 包头来实现。
三层的优点：少了封包和解包的过程，性能肯定是更高的。
三层的缺点：需要自己想办法维护路由规则。
隧道的优点：简单，原因是大部分工作都是由 Linux 内核的模块实现了，应用层面工作量较少。
隧道的缺点：主要的问题就是性能低。

再简单回顾总结下flannel的udp和vxlan

udp模式

1.容器1发送请求到容器2,不是同一网段,查看路由,会把此ip包发送给flannel0(注意这个路由是flannel维护的),flannel0是一个TUN设备(一端接受ip包,一端连接用户进程flannelID)

2.flannelID进程把ip包封装为一个UDP包.目的ip就是宿主机.(那怎么知道目的容器所在的宿主机呢?etcd)

3.一个udp包过去后,通过协议栈,会交给flannelID进程,flannelID进程把udp包内容拿出来,是一个ip包,这时候再交给flannel0(TUN).tun设备再进行传递

VXLAN模式:

由于udp模式需要从用户态到内核态切换3次.很慢.是基于三层三层网络(封装的ip包)

1.VTEP是一个既有ip,同时也有mac地址.vxlan的目的就是不通过内核态-用户态切换.直接在VTEP间进行传输.

2.容器1->容器2,根据route表(启动时添加的规则,大体就是请求10.1.16.xx的时候,要走本机的flannel.1设备),将包发送给flannel.1设备.

3.flannel.1设备接收到后,

Kernel IP routing table
Destination Gateway Genmask Flags Metric Ref Use Iface
10.1.16.0 10.1.16.0 255.255.255.0 UG 0 0 0 flannel.1

3.flannel.1设备得想法把包直接发给另一个flannel.1设备.

目标ip知道吗?知道就是这个gateway

目标mac地址呢?node2启动的时候,flannelID进程就会把mac地址写入arp缓存了.

源ip,源mac都有.

但是还有个问题.这个目标mac地址是有,但是node2可能都不接受这个包,因为node2只知道eth0的.那咋增呢?

还是要包装一层.封装成一个普通的udp报文,发送给宿主机.宿主机的网络栈拆包的时候,识别到VXLAN Header就可以把包转发给VTEP,VTEP再转发给docker0

K8S/Kubernetes

K8S/Kubernetes社区为您提供最前沿的新闻资讯和知识内容

更多推荐

【深度】阿里巴巴万级规模 K8s 集群全局高可用体系之美

作者 | 韩堂、柘远、沉醉来源 | 阿里巴巴云原生公众号前言台湾作家林清玄在接受记者采访的时候，如此评价自己 30 多年写作生涯：“第一个十年我才华横溢，‘贼光闪现’，令周边黯然失色；第二个十年，我终于‘宝光现形’，不再去抢风头，反而与身边的美丽相得益彰；进入第三个十年，繁华落尽见真醇，我进入了‘醇光初现’的阶段，真正体味到了境界之美”。长夜有穷，真水无香。领略过了 K8s“身在江

K8S/Kubernetes

如何基于 K8s 构建下一代 DevOps 平台？

作者 | 孙健波（天元）导读：当前云原生 DevOps 体系现状如何？面临哪些挑战？如何通过 OAM 解决云原生 DevOps 场景下的诸多问题？云原生开发应用模型 OAM(Open Application Model) 社区核心成员孙健波将为大家一一解答，并分享如何基于 OAM 和 Kubernetes 打造无限能力的下一代 DevOps 平台。什么是 DevOps？为什么基于 Kub