如何在pycharm中运行/调试torch分布式训练

转自https://zhuanlan.zhihu.com/p/144815822现在很多深度学习研究开源代码都会使用pytorch框架，原因之一就是在torch中，只要你定义好了一个module，你就可以轻易的用torch.distributed将其应用到单机多GPU或者多机多GPU的场景中，加速模型的收敛速度。但是在所有github项目的readme中，都是仅给出了如何在命令行模式下使用分布式的

sunmenmian

3599人浏览 · 2022-04-08 13:05:14

sunmenmian · 2022-04-08 13:05:14 发布

转自https://zhuanlan.zhihu.com/p/144815822
现在很多深度学习研究开源代码都会使用pytorch框架，原因之一就是在torch中，只要你定义好了一个module，你就可以轻易的用torch.distributed将其应用到单机多GPU或者多机多GPU的场景中，加速模型的收敛速度。

但是在所有github项目的readme中，都是仅给出了如何在命令行模式下使用分布式的方法。对于需要在Pycharm或其他IDE进行调试的研究者就不太适用。

环境
PyTorch 1.6
PyCharm 2020.1
分析Readme参数设置
首先，我们需要查看项目的Readme文件是如何使用分布式训练的，以备后面将参数设置在Pycharm中。

python -m torch.distributed.launch --nproc_per_node=4
tools/train.py --cfg xxx.yaml
python -m torch.distributed.launch --nproc_per_node=4 表示调用torch.distributed.launch 这个.py文件进行分布式训练；–nproc_per_node=4 说明创建节点数为4，这个值通常与训练使用的GPU数量一致。

tools/train.py --cfg xxx.yaml 是真正的训练文件，后面的–cfg xxx.yaml 是train.py 使用时需要给出的执行参数名称和值。

软链接distributed文件
通过对调用分布式的命令分析，我们首先需要找到torch.distributed.launch这个文件，并将它软链接到我们的Pycharm项目目录下。为什么使用软链接而不是直接复制呢？因为软链接不会变更文件的路径，从而使得launch.py文件可以不做任何改动的情况下去import它需要的包。

在Ubuntu中，通过以下命令创建软链接

ln -s /yourpython/lib/python3.6/site-packages/torch/distributed/ /yourprogram/
以上命令没有直接链接launch.py而是它的父目录distributed，是因为这样比较容易知道launch.py是一个软链接，不与项目中的其他文件混淆。
在这里插入图片描述

设置Pycharm运行参数
打开Pycharm，依次点击Run->Edit Configurations 进入参数配置界面
在这里插入图片描述

只需要配置Script path为launch.py路径；Parameters为launch.py运行参数，参考命令行调用的方法，设置如下。

–nproc_per_node=4
tools/train.py --cfg xxx.yaml
通过以上步骤就可以在Pycharm中运行分布式训练了。不过，如果是在调试模型最好还是修改一下trian.py文件，通过单GPU方式调试，并不是说分布式模式不能调试，仅仅是因为在单GPU方式下，对于数据流更好把控，减少调试时间。

AtomGit 开源协作平台测评赛

瓜分20万奖金获得内推名额丰厚实物奖励易参与易上手

更多推荐

ADS1292R 使用过程心电图高精度ADC模块

文章目录1 Fundamentals ofPrecision ADC Noise Analysis 精密模数转换器噪声分析基础1 Fundamentals ofPrecision ADC Noise Analysis 精密模数转换器噪声分析基础https://www.ti.com.cn/cn/lit/wp/slyy192/slyy192.pdf?ts=1600659610730&ref_u

开放原子开发者工作坊

实现一个家庭安防与环境监测系统（一）

开放原子开发者工作坊

【cf】Codeforces Round #774 (Div. 2) 前4题

题目A. Square Counting 简单数学题目大意题解代码B. Quality vs Quantity 排序题目大意题解代码C. Factorials and Powers of Two 状态压缩dp+位运算题目大意题解代码D. Weight the Tree 树形dp+dfs题目大意题解代码E. Power Board 看起来像是数论？许多年没打cf了，偶尔打了一盘，恢复紫名了。A. S