分布式tensorflow原理，单任务和多任务

引子：tf.train.Server.create_local_server（）函数创建一个集群，一般来说不同的任务在不用的机器上，例外是使用GPU时候，不同的任务可以使用同一台机器上的不同GPU跑单任务例子：#!/usr/bin/env python# -*- coding:utf-8 -*-# Author: Jia ShiLinimport tensorflow...

贾世林jiashilin

489人浏览 · 2019-06-21 23:43:08

贾世林jiashilin · 2019-06-21 23:43:08 发布

引子：

tf.train.Server.create_local_server（）函数创建一个集群，

一般来说不同的任务在不用的机器上，
例外是使用GPU时候，不同的任务可以使用同一台机器上的不同GPU跑

单任务例子：

#!/usr/bin/env python
# -*- coding:utf-8 -*- 
# Author: Jia ShiLin

import tensorflow as tf

c = tf.constant('hello,distributed tensorflow!')

# 创建一个本地Tensorflow 集群
server = tf.train.Server.create_local_server()

# 在集群上创建一个会话
sess = tf.Session(server.target)

print(sess.run(c))

多任务例子：

多任务需要使用，tf.train.ClusterSpec指定每一个任务的机器

任务一：

#!/usr/bin/env python
# -*- coding:utf-8 -*- 
# Author: Jia ShiLin

import tensorflow as tf

c = tf.constant('hello,server1')
# 生成一个有两个任务的集群，一个任务跑在本地2222端口，另外一个跑在2223端口
cluster = tf.train.ClusterSpec(
    {
        'local': ['localhost:2222', 'localhost:2223']
    }
)

# 通过上面生成的集群配置生成server,并job_name和tast_index指定当前所启动的任务，第一个任务task_index值为0
server = tf.train.Server(cluster, job_name='local', task_index=0)

# 通过server.target生成会话来使用tensorflow集群中资源，通过设置log_device_placement可以看到执行每一个操作的任务
sess = tf.Session(server.target,config=tf.ConfigProto(log_device_placement=True))

print(sess.run(c))
server.join()

任务二：

#!/usr/bin/env python
# -*- coding:utf-8 -*- 
# Author: Jia ShiLin
'''
第二个任务
'''
import tensorflow as tf
c = tf.constant('hello,server2')

#和第一个程序一样的集群配置，每个任务需要相同的配置
cluster = tf.train.ClusterSpec(
    {'local':['localhost:2222','localhost:2223']}
)
#指定task_index为1,这个程序将在localhost:2223启动
server = tf.train.Server(cluster,job_name='local',task_index=1)
# 通过server.target生成会话来使用tensorflow集群中资源，通过设置log_device_placement可以看到执行每一个操作的任务
sess = tf.Session(server.target,config=tf.ConfigProto(log_device_placement=True))

print(sess.run(c))
server.join()

启动第一个任务后，程序会停下来等待，输出下面的代码，