PyTorch socket.error [Errno 111] Connection refused

文章作者：Tyan博客：noahsnail.com | CSDN | 简书1. 问题描述在nvidia-docker中使用PyTorch训练深度模型时，会碰到程序突然挂掉的情况，主要现象是产生core文件，有时输出错误信息，有时没有错误信息，进程会挂在哪里，错误信息类似于：socket.error: [Errno 111] Connection refused通

SnailTyan

6954人浏览 · 2018-01-15 18:42:17

SnailTyan · 2018-01-15 18:42:17 发布

文章作者：Tyan
博客：noahsnail.com | CSDN | 简书

1. 问题描述

在nvidia-docker中使用PyTorch训练深度模型时，会碰到程序突然挂掉的情况，主要现象是产生core文件，有时输出错误信息，有时没有错误信息，进程会挂在哪里，错误信息类似于：

socket.error: [Errno 111] Connection refused

通常问题会定位在/usr/local/lib/python2.7/dist-packages/torch/utils/data/dataloader.py。

2. 问题原因

Please note that PyTorch uses shared memory to share data between processes, so if torch multiprocessing is used (e.g. for multithreaded data loaders) the default shared memory segment size that container runs with is not enough, and you should increase shared memory size either with --ipc=host or --shm-size command line options to nvidia-docker run.

主要原因在于PyTorch的数据加载是多线程的，它们使用的是共享内存来共享数据，默认的共享内存是不够的，因此需要增加共享内存。

3. 解决方案

主要是在启动docker时加上--ipc=host参数。

nvidia-docker run --ipc=host -ti -v $(pwd):/workspace docker-image

参考资料

https://github.com/pytorch/pytorch

向您推荐>>Eolink开发者社区

权威｜前沿｜技术｜干货｜国内首个API全生命周期开发者社区

更多推荐

深入理解 Mocha 测试框架：从零实现一个 Mocha

前言什么是自动化测试自动化测试在很多团队中都是Devops环节中很难执行起来的一个环节，主要原因在于测试代码的编写工作很难抽象，99%的场景都需要和业务强绑定，而且写测试代码的编写工作量往往比编写实际业务代码的工作量更多。在一些很多业务场景中投入产出比很低，适合写自动化测试的应该是那些中长期业务以及一些诸如组件一样的基础库。自动化测试是个比较大的概念，其中分类也比较多，比如单元测试，端对端测试，集

云原生

ELK实现containerd的容器日志采集展示【基于logging的全栈监测】

企业级ELK Stack构建介绍

云原生

(20200916 Solved)docker-compose up创建容器自动退出

问题描述如题，创建容器后自动退出了。并且docker start container无效解决方案原因是缺失了控制终端的配置，需要在docker-compose.yml中增加tty:true ，有时候这样也不行，需要再增加一个command:/bin/bash，命令不一定是这个，需要是一个不会退出的命令，然后用-d后台启动容器。Referencesdocker-compose启动容器后自动退出...

云原生

所有评论(0)

查看更多评论

SnailTyan

@Quincuntial

已为社区贡献5条内容