引子:

tf.train.Server.create_local_server()函数创建一个集群,

  1. 一般来说不同的任务在不用的机器上,
  2. 例外是使用GPU时候,不同的任务可以使用同一台机器上的不同GPU跑

单任务例子:

#!/usr/bin/env python
# -*- coding:utf-8 -*- 
# Author: Jia ShiLin

import tensorflow as tf

c = tf.constant('hello,distributed tensorflow!')

# 创建一个本地Tensorflow 集群
server = tf.train.Server.create_local_server()

# 在集群上创建一个会话
sess = tf.Session(server.target)

print(sess.run(c))

多任务例子:

多任务需要使用,tf.train.ClusterSpec指定每一个任务的机器

任务一:

#!/usr/bin/env python
# -*- coding:utf-8 -*- 
# Author: Jia ShiLin

import tensorflow as tf

c = tf.constant('hello,server1')
# 生成一个有两个任务的集群,一个任务跑在本地2222端口,另外一个跑在2223端口
cluster = tf.train.ClusterSpec(
    {
        'local': ['localhost:2222', 'localhost:2223']
    }
)

# 通过上面生成的集群配置生成server,并job_name和tast_index指定当前所启动的任务,第一个任务task_index值为0
server = tf.train.Server(cluster, job_name='local', task_index=0)

# 通过server.target生成会话来使用tensorflow集群中资源,通过设置log_device_placement可以看到执行每一个操作的任务
sess = tf.Session(server.target,config=tf.ConfigProto(log_device_placement=True))

print(sess.run(c))
server.join()

任务二:

#!/usr/bin/env python
# -*- coding:utf-8 -*- 
# Author: Jia ShiLin
'''
第二个任务
'''
import tensorflow as tf
c = tf.constant('hello,server2')

#和第一个程序一样的集群配置,每个任务需要相同的配置
cluster = tf.train.ClusterSpec(
    {'local':['localhost:2222','localhost:2223']}
)
#指定task_index为1,这个程序将在localhost:2223启动
server = tf.train.Server(cluster,job_name='local',task_index=1)
# 通过server.target生成会话来使用tensorflow集群中资源,通过设置log_device_placement可以看到执行每一个操作的任务
sess = tf.Session(server.target,config=tf.ConfigProto(log_device_placement=True))

print(sess.run(c))
server.join()

启动第一个任务后,程序会停下来等待,输出下面的代码,

直到运行第二个任务 ,会得到下面的输出 

  • 任务1

 

  • 任务2

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐