在kubernetes 集群上运行分布式tensorflow训练
这几天参考google的参考代码,在kubernetes 集群上面进行分布式训练。因为之前主要不是做上层的,也没有接触过分布式系统,所以花了三天才跑起来。记录一下,如果有和我相同背景的同学可以参考一下。因为CSDN上传代码不方便,所以代码我都是放在github。这是整个过程的介绍和所用到的代码整个过程需要用到的第三方工具docker这个比较简单,把官网的tutorial看一下就能够满足这个任务的需
·
这几天参考google的参考代码,在kubernetes 集群上面进行分布式训练。因为之前主要不是做上层的,也没有接触过分布式系统,所以花了三天才跑起来。记录一下,如果有和我相同背景的同学可以参考一下。因为CSDN上传代码不方便,所以代码我都是放在github。
这是整个过程的介绍和所用到的代码: github 地址
整个过程需要用到的第三方工具
docker
这个比较简单,把官网的tutorial看一下就能够满足这个任务的需求了,但是个人感觉这个工具很强大,值得深入学习。我在学习的时候也做了一些笔记: github 地址
kubernetes
这是一个docker的集群管理工具。刚开始时,我试着手动在每台机器上运行tensorflow程序或者跑docker,很麻烦。有了这个工具在只需要写好配置文件,一个命令就可以搞定。
我也做了一些笔记: github 地址,包括了如下的内容
- kubernetes的介绍,架构,基本用法,命令
- 使用kubeadm架设一个kubernetes cluster
- 配置一个NFS Persistent Volume 在各个kubernetes pod之间共享数据(这一步很关键,因为我们必须提供一个存储空间让每一个tensorflow docker container 都能拿到训练数据和写入checkpoint, summary file, etc)
更多推荐
已为社区贡献1条内容
所有评论(0)