zhang2008l 个人主页

@zhang2008l

zhang2008l

2026-03-05 03:26:39 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

分布式多卡训练(DDP)踩坑

多卡训练最近在跑yolov10版本的RT-DETR，用来进行目标检测。多卡训练语句：需要通过torch..launch来启动，一般是单节点，其中CUDA_VISIBLE_DEVICES设置用的显卡编号，也可以不用，直接在main.py里面指定device也行，–nproc_pre_node 每个节点的显卡数量。但是运行多卡训练之后，会报错，有的时候训练进程会卡住。错误信息如下，发生了runtime

#分布式

到底了