这几天参考google的参考代码,在kubernetes 集群上面进行分布式训练。因为之前主要不是做上层的,也没有接触过分布式系统,所以花了三天才跑起来。记录一下,如果有和我相同背景的同学可以参考一下。因为CSDN上传代码不方便,所以代码我都是放在github。

这是整个过程的介绍和所用到的代码: github 地址

整个过程需要用到的第三方工具

docker

这个比较简单,把官网的tutorial看一下就能够满足这个任务的需求了,但是个人感觉这个工具很强大,值得深入学习。我在学习的时候也做了一些笔记: github 地址

kubernetes

这是一个docker的集群管理工具。刚开始时,我试着手动在每台机器上运行tensorflow程序或者跑docker,很麻烦。有了这个工具在只需要写好配置文件,一个命令就可以搞定。
我也做了一些笔记: github 地址,包括了如下的内容

  • kubernetes的介绍,架构,基本用法,命令
  • 使用kubeadm架设一个kubernetes cluster
  • 配置一个NFS Persistent Volume 在各个kubernetes pod之间共享数据(这一步很关键,因为我们必须提供一个存储空间让每一个tensorflow docker container 都能拿到训练数据和写入checkpoint, summary file, etc)
Logo

权威|前沿|技术|干货|国内首个API全生命周期开发者社区

更多推荐