分布式tensorflow原理,单任务和多任务
引子:tf.train.Server.create_local_server()函数创建一个集群,一般来说不同的任务在不用的机器上,例外是使用GPU时候,不同的任务可以使用同一台机器上的不同GPU跑单任务例子:#!/usr/bin/env python# -*- coding:utf-8 -*-# Author: Jia ShiLinimport tensorflow...
·
引子:
tf.train.Server.create_local_server()函数创建一个集群,
- 一般来说不同的任务在不用的机器上,
- 例外是使用GPU时候,不同的任务可以使用同一台机器上的不同GPU跑
单任务例子:
#!/usr/bin/env python
# -*- coding:utf-8 -*-
# Author: Jia ShiLin
import tensorflow as tf
c = tf.constant('hello,distributed tensorflow!')
# 创建一个本地Tensorflow 集群
server = tf.train.Server.create_local_server()
# 在集群上创建一个会话
sess = tf.Session(server.target)
print(sess.run(c))
多任务例子:
多任务需要使用,tf.train.ClusterSpec指定每一个任务的机器
任务一:
#!/usr/bin/env python
# -*- coding:utf-8 -*-
# Author: Jia ShiLin
import tensorflow as tf
c = tf.constant('hello,server1')
# 生成一个有两个任务的集群,一个任务跑在本地2222端口,另外一个跑在2223端口
cluster = tf.train.ClusterSpec(
{
'local': ['localhost:2222', 'localhost:2223']
}
)
# 通过上面生成的集群配置生成server,并job_name和tast_index指定当前所启动的任务,第一个任务task_index值为0
server = tf.train.Server(cluster, job_name='local', task_index=0)
# 通过server.target生成会话来使用tensorflow集群中资源,通过设置log_device_placement可以看到执行每一个操作的任务
sess = tf.Session(server.target,config=tf.ConfigProto(log_device_placement=True))
print(sess.run(c))
server.join()
任务二:
#!/usr/bin/env python
# -*- coding:utf-8 -*-
# Author: Jia ShiLin
'''
第二个任务
'''
import tensorflow as tf
c = tf.constant('hello,server2')
#和第一个程序一样的集群配置,每个任务需要相同的配置
cluster = tf.train.ClusterSpec(
{'local':['localhost:2222','localhost:2223']}
)
#指定task_index为1,这个程序将在localhost:2223启动
server = tf.train.Server(cluster,job_name='local',task_index=1)
# 通过server.target生成会话来使用tensorflow集群中资源,通过设置log_device_placement可以看到执行每一个操作的任务
sess = tf.Session(server.target,config=tf.ConfigProto(log_device_placement=True))
print(sess.run(c))
server.join()
启动第一个任务后,程序会停下来等待,输出下面的代码,
直到运行第二个任务 ,会得到下面的输出
- 任务1
- 任务2
更多推荐
已为社区贡献41条内容
所有评论(0)