centos下的kubeflow实践
安装docker和k8s参考:https://blog.csdn.net/fenglailea/article/details/88745642参考指令dockerd --registry-mirror=https://registry.docker-cn.comkubectl get po -Akubectl describe -n kubeflow pod metadata-envoy-dep
·
安装docker和k8s
参考:
https://blog.csdn.net/fenglailea/article/details/88745642
kustomize安装
mv kustomize_3.2.0_linux_amd64 kustomize
chmod u+x kustomize
mv kustomize ~/bin/
安装Kubeflow官网方法
参考
由于国内网络原因 有些镜像拉不下来(你也可以试试,或者自建vpn),于是有以下两种其他方法
其他方法1:非GPU环境快速搭建kubeflow
其他方法2:全手动安装
- 搭建集群
方法1中使用kind创建集群不支持GPU,且是用单容器模拟的,所以如果需要GPU支持只有自己手动安装。
搭建集群可以继续参考上文安装k8s的文章,当kubectl get po -A时有如下输出则搭建成功:
NAMESPACE NAME READY STATUS RESTARTS AGE
kube-system coredns-6d8c4cb4d-84xsn 1/1 Running 2 (11m ago) 16h
kube-system coredns-6d8c4cb4d-wdwm2 1/1 Running 2 (11m ago) 16h
kube-system etcd-foxk8s 1/1 Running 5 (11m ago) 16h
kube-system kube-apiserver-foxk8s 1/1 Running 5 (11m ago) 16h
kube-system kube-controller-manager-foxk8s 1/1 Running 16 (11m ago) 16h
kube-system kube-flannel-ds-986jx 1/1 Running 2 (11m ago) 16h
kube-system kube-proxy-sgxsl 1/1 Running 2 (11m ago) 16h
kube-system kube-scheduler-foxk8s 1/1 Running 14 (11m ago) 16h
- 准备kubeflow所用的yaml和镜像
从方法1的链接中的pre_install.py可以生成需要的yaml文件
运行pre_install.py需要拉取镜像,拉不下来的镜像可以寻求这里的帮助,他可以帮你拉取镜像并且上传到阿里云 - 创建PV
如果没有激活Kubernetes 集群动态存储,则需要创建4 个PV(PersistentVolume),一些Kubeflow 组件需要使用PV 存储数据(如MinIO、MySQL、Katib 等)。我们需要提前为PVC(Persistent Volume Claim)创建PV。
参考
安装nvidia-docker
安装nvidia官网容器工具:
https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/install-guide.html#docker
安装k8s中调度GPU的插件:
https://kubernetes.io/docs/tasks/manage-gpus/scheduling-gpus/#deploying-nvidia-gpu-device-plugin
其他
-
可能会用到的显卡修复方法
https://blog.csdn.net/wangxiaosu0501/article/details/118464845 -
docker可能需要卸载重装
yum list installed |grep docker
yum -y remove docker.x86_64
更多推荐
已为社区贡献1条内容
所有评论(0)