Kubernetes(K8S)集群部署 && Kubeflow部署

关于K8s集群部署和Kubeflow部署

静谧。。

812人浏览 · 2024-06-27 09:04:29

静谧。。 · 2024-06-27 09:04:29 发布

Kubernetes(K8S)集群部署

一、创建三个节点

三个节点的IP分别为：192.168.164.169/192.168.164.170/192.168.164.171

二、为每个节点安装Docker

版本参考：

docker-ce-20.10.7
docker-ce-cli-20.10.7
containerd.io-1.4.6

为了后续k8s安装不出错，建议指定版本安装：

yum install -y docker-ce-20.10.7 docker-ce-cli-20.10.7  containerd.io-1.4.6

三、安装bubelet

3.1 安装要求

一台兼容的 Linux 主机。Kubernetes 项目为基于 Debian 和 Red Hat 的 Linux 发行版以及一些不提供包管理器的发行版提供通用的指令。
每台机器 2 GB 或更多的 RAM （如果少于这个数字将会影响你应用的运行内存)
2 CPU 核或更多
集群中的所有机器的网络彼此均能相互连接(公网和内网都可以)
- 设置防火墙放行规则
节点之中不可以有重复的主机名、MAC 地址或 product_uuid。请参见这里这里了解更多详细信息。
- 设置不同hostname
开启机器上的某些端口。请参见这里了解更多详细信息。
- 内网互信
禁用交换分区。为了保证 kubelet 正常工作，你必须禁用交换分区。
- 永久关闭

3.2 为每台服务器完成前置设置

#各个机器设置自己的域名
hostnamectl set-hostname xxxx
 
 
# 将 SELinux 设置为 permissive 模式（相当于将其禁用）
sudo setenforce 0
sudo sed -i 's/^SELINUX=enforcing$/SELINUX=permissive/' /etc/selinux/config
 
#关闭swap
swapoff -a  
sed -ri 's/.*swap.*/#&/' /etc/fstab
 
#允许 iptables 检查桥接流量
cat <<EOF | sudo tee /etc/modules-load.d/k8s.conf
br_netfilter
EOF
 
cat <<EOF | sudo tee /etc/sysctl.d/k8s.conf
net.bridge.bridge-nf-call-ip6tables = 1
net.bridge.bridge-nf-call-iptables = 1
EOF
sudo sysctl --system

3.3 为每台服务器安装kubelet、kubeadm、kubectl

kubelet - “厂长”

kubectl - 程序员敲命令行的命令窗

kubeadm - 引导创建集群的

# 1.先配置K8S去哪儿下载的地址信息
cat <<EOF > /etc/yum.repos.d/kubernetes.repo
[kubernetes]
name=Kubernetes
baseurl=http://mirrors.aliyun.com/kubernetes/yum/repos/kubernetes-el7-x86_64
enabled=1
gpgcheck=0
repo_gpgcheck=0
gpgkey=http://mirrors.aliyun.com/kubernetes/yum/doc/yum-key.gpg
   http://mirrors.aliyun.com/kubernetes/yum/doc/rpm-package-key.gpg
exclude=kubelet kubeadm kubectl
EOF
# 2. 安装
sudo yum install -y kubelet-1.20.9 kubeadm-1.20.9 kubectl-1.20.9 --disableexcludes=kubernetes
# 3. 启动kubelet
sudo systemctl enable --now kubelet

四、使用kubeadm引导集群

4.1 master服务器

下载各个机器需要的镜像，以下只需要在master机器上执行：

# 1. 定义一个for循环，需要的东西下载
sudo tee ./images.sh <<-'EOF'
#!/bin/bash
images=(
kube-apiserver:v1.20.9
kube-proxy:v1.20.9
kube-controller-manager:v1.20.9
kube-scheduler:v1.20.9
coredns:1.7.0
etcd:3.4.13-0
pause:3.2
)
for imageName in ${images[@]} ; do
docker pull registry.cn-hangzhou.aliyuncs.com/lfy_k8s_images/$imageName
done
EOF
# 2. 赋予权限，让它下载这些东西
chmod +x ./images.sh && ./images.sh

4.2 node1、node2服务器

从图上可以知道，从节点也需要安装kube-proxy。我们可以只下载这个镜像，当然了为了避免出现意外，我们也可以都下载下来。

方法完全参考4.1

4.3 初始化主节点

首先给所有的服务器都添加一下k8s110这台服务器的域名映射

#所有机器添加master域名映射，以下需要修改为自己的内网ip地址
echo "192.168.164.169  cluster-endpoint" >> /etc/hosts

然后只在k8s110这台服务器上执行主节点初始化过程：

#主节点初始化
kubeadm init \
--apiserver-advertise-address=192.168.164.169 \
--control-plane-endpoint=cluster-endpoint \
--image-repository registry.cn-hangzhou.aliyuncs.com/lfy_k8s_images \
--kubernetes-version v1.20.9 \
--service-cidr=10.96.0.0/16 \
--pod-network-cidr=192.168.50.0/24
 
#要求所有网络范围不重叠 --pod-network-cidr  --service-cidr --apiserver-advertise-address 都不能重叠

之后会出现这样一段话：

Your Kubernetes control-plane has initialized successfully!

To start using your cluster, you need to run the following as a regular user:

  mkdir -p $HOME/.kube
  sudo cp -i /etc/kubernetes/admin.conf $HOME/.kube/config
  sudo chown $(id -u):$(id -g) $HOME/.kube/config

Alternatively, if you are the root user, you can run:

  export KUBECONFIG=/etc/kubernetes/admin.conf

You should now deploy a pod network to the cluster.
Run "kubectl apply -f [podnetwork].yaml" with one of the options listed at:
  https://kubernetes.io/docs/concepts/cluster-administration/addons/

You can now join any number of control-plane nodes by copying certificate authorities
and service account keys on each node and then running the following as root:

  kubeadm join cluster-endpoint:6443 --token 7lm0fe.138yf9zwlx9v489n \
    --discovery-token-ca-cert-hash sha256:985be09cbd5029f5707e580a7fd14f689eb98dc1acc4cf6989818343846767cd \
    --control-plane 

Then you can join any number of worker nodes by running the following on each as root:

kubeadm join cluster-endpoint:6443 --token 7lm0fe.138yf9zwlx9v489n \
    --discovery-token-ca-cert-hash sha256:985be09cbd5029f5707e580a7fd14f689eb98dc1acc4cf6989818343846767cd

按照它提示的步骤，一步一步执行：

mkdir -p $HOME/.kube
sudo cp -i /etc/kubernetes/admin.conf $HOME/.kube/config
sudo chown $(id -u):$(id -g) $HOME/.kube/config

然后我们查看一下集群的所有结点：

#查看集群所有节点
kubectl get nodes

安装网络插件

可以有多种安装选择，我们就用calico

curl https://docs.projectcalico.org/v3.20/manifests/calico.yaml -O

下载成功，我们calico.yaml配置文件就有了。

重要提示💡：如果我们在初始化主节点时，修改了–pod-network-cidr=192.168.0.0/16，那么我们就要进入这个配置文件，将我们修改后的ip地址写上去。

vim calico.yaml

ok，有了这个配置文件，就可以通过如下命令为k8s安装calico插件所需要的东西了

然后执行命令安装calico网络插件

#根据配置文件，给集群创建资源（以后通过该命令为k8s创建资源，不限于calico）
kubectl apply -f calico.yaml

我们如何查看集群部署了哪些应用呢？

# 查看集群部署了哪些应用
docker ps
# 等价于
kubectl get pods -A
# 运行中的应用在docker里面叫容器，在k8s里面叫Pod

以上，master节点就准备就绪了！

4.4 work节点加入集群

前面初始化主节点成功后的提示中有步骤：

kubeadm join cluster-endpoint:6443 --token 3e54se.alzs9d1mkf30f25w \
    --discovery-token-ca-cert-hash sha256:689c076e294bdbb588103a51aaa7248b8a0df34bde634a6189d311ad46a02856

我们只需要将它在另外两台服务器各自执行即可。

如果加入报错，请查看是否已经关闭了防火墙，确保关闭防火墙然后执行：

sysctl -w net.ipv4.ip_forward=1

我们也可以通过linux的命令 watch -n 1 kubectl get pods -A，每一秒查看一下状态

watch -n 1 kubectl get pods -A

五、token过期怎么办？

token超过24小时就失效了，如果我们还没有加入从节点，或者想加入新的从节点，可以在master节点执行如下命令，让它重新生成

kubeadm token create --print-join-command

六、安装可视化界面dashboard

6.1 安装

kubectl apply -f https://raw.githubusercontent.com/kubernetes/dashboard/v2.3.1/aio/deploy/recommended.yaml

6.2 暴露端口

kubectl edit svc kubernetes-dashboard -n kubernetes-dashboard

type: ClusterIP 改为 type: NodePort

相当于docker中将内部的端口映射到linux的某个端口

找到放行的端口

kubectl get svc -A |grep kubernetes-dashboard
## 如果是云服务器，找到端口，在安全组放行

6.3 访问web界面

访问： https://集群任意IP:端口https://192.168.164.169:31321

6.4 登录授权：

Dashboard 支持 Kubeconfig 和 Token 两种认证方式，为了简化配置，我们通过配置文件为 Dashboard 默认用户赋予 admin 权限。

cat > kubernetes-adminuser.yaml <<'EOF'
apiVersion: v1
kind: ServiceAccount
metadata:
  name: admin-user
  namespace: kube-system
---
apiVersion: rbac.authorization.k8s.io/v1beta1
kind: ClusterRoleBinding
metadata:
  name: admin-user
roleRef:
  apiGroup: rbac.authorization.k8s.io
  kind: ClusterRole
  name: cluster-admin
subjects:
- kind: ServiceAccount
  name: admin-user
  namespace: kube-system
EOF

授权：

kubectl apply -f kubernetes-adminuser.yaml

获取登录的 token：

kubectl -n kube-system describe secret $(kubectl -n kube-system get secret | grep admin-user | awk ' {print $1}')

这一段就是token，复制到浏览器里就行：

Chrome和edge浏览器可能出现：

解决方法：

在此页面空白处任意位置点击鼠标左键后，键盘输入引号中内容 “thisisunsafe” 即可自动跳转

最后：

七、docker源配置

# docker镜像源配置文件
/etc/docker/daemon.json

如果没有的daemon.json，就新建一个daemon.json文件，ps：每个节点都需要配置镜像源

vim /etc/docker/daemon.json

配置完成以后需要载入配置文件：

systemctl daemon-reload
systemctl restart docker

八、k8s重装

如果遇到版本问题，无法解决，需要重装k8s，按以下步骤来

8.1 停止服务

kubeadm reset

8.2 删除残余文件

rm -rf /etc/kubernetes
rm -rf /var/lib/etcd/
rm -rf $HOME/.kube

备注：无需其他操作，只需要执行这三条命令就可以了。若多删除其他文件，可能出现重装后kubectl命令无法使用的情况（提示信息为存在残留文件未删除）。

8.3 重新初始化主节点

如果是更新了kubelet、kubeadm、kubectl版本导致的报错，需要降级，执行下面命令卸载

yum remove kubeadm kubectl kubelet -y

之后从3.3 为每台服务器安装kubelet、kubeadm、kubectl开始执行

Kubeflow安装

K8S/Kubernetes

K8S/Kubernetes社区为您提供最前沿的新闻资讯和知识内容

更多推荐

【深度】阿里巴巴万级规模 K8s 集群全局高可用体系之美

作者 | 韩堂、柘远、沉醉来源 | 阿里巴巴云原生公众号前言台湾作家林清玄在接受记者采访的时候，如此评价自己 30 多年写作生涯：“第一个十年我才华横溢，‘贼光闪现’，令周边黯然失色；第二个十年，我终于‘宝光现形’，不再去抢风头，反而与身边的美丽相得益彰；进入第三个十年，繁华落尽见真醇，我进入了‘醇光初现’的阶段，真正体味到了境界之美”。长夜有穷，真水无香。领略过了 K8s“身在江

K8S/Kubernetes

如何基于 K8s 构建下一代 DevOps 平台？

作者 | 孙健波（天元）导读：当前云原生 DevOps 体系现状如何？面临哪些挑战？如何通过 OAM 解决云原生 DevOps 场景下的诸多问题？云原生开发应用模型 OAM(Open Application Model) 社区核心成员孙健波将为大家一一解答，并分享如何基于 OAM 和 Kubernetes 打造无限能力的下一代 DevOps 平台。什么是 DevOps？为什么基于 Kub