小白科研笔记：深入理解mmDetection框架——训练推断流程

1. 前言这篇博客讨论mmDetection框架的训练推断的总体流程。在讲解它的训练流程的过程中，我会以3d目标检测算法SA-SSD为讲解对象。首先解析训练流程，然后去讨论推断流程。2. 训练2.1 总体流程训练过程中的程序调用图如下所示。图1：总体训练流程图3. 推断3.1 总体流程推断过程中的程序调用图如下所示。图2：总体推断流程图4. 结束语...

Niuip

2347人浏览 · 2020-05-22 17:48:24

Niuip · 2020-05-22 17:48:24 发布

1. 前言

这篇博客讨论mmDetection框架的训练推断的总体流程。在讲解它的训练流程的过程中，我会以3d目标检测算法SA-SSD为讲解对象。首先解析训练流程，然后去讨论推断流程。

2. 训练

训练过程中的程序调用图如下所示。配置文件的重要性不言而喻，学习mmDetection框架的第一步就是立理解配置文件。这里假设读者都已了解。配置文件主要提供五个方面的参数。

在这里插入图片描述
图1：总体训练流程图

build_detector属于网路框架搭建模块的函数，get_dataset属于数据模块的函数，在这篇博客不去做介绍（留到后面讲）。接下来重点分析train_detector。它的图解如下所示。

在这里插入图片描述
图2：train_detector流程图解

mmDetection的训练主要是调用mmcv的框架训练小助手Runner。Runner可根据配置文件，自动地完成目标检测网络的训练。当然，它的底层还是调用Pytorch的函数，比如数据的加载会调用Pytorch的DataLoader，反向传播依然是Pytorch的backward()。Runner考虑了多个GPU的训练细节。

Runner的代码写的同样很有意思。代码中使用hook的技术，可以参考这篇知乎笔记（笔记中的hook跟Runner源码中使用到的hook似乎意义不太一样）。在我的理解，hook是插件。核心训练代码如下所示：

        while self.epoch < max_epochs:
            for i, flow in enumerate(workflow):
                mode, epochs = flow
                # 根据 workflow 内容，决定此 Epoch 是训练网络还是评估网络
                if isinstance(mode, str):  # self.train()
                    if not hasattr(self, mode):
                        raise ValueError(
                            'runner has no method named "{}" to run an epoch'.
                            format(mode))
                    # 使用 getattr 传递函数句柄
                    # epoch_runner = self.train() 或者 self.val()
                    epoch_runner = getattr(self, mode)
                elif callable(mode):  # custom train()
                    epoch_runner = mode
                else:
                    raise TypeError('mode in workflow must be a str or '
                                    'callable function, not {}'.format(
                                        type(mode)))
                # 执行 workflow
                for _ in range(epochs):
                    if mode == 'train' and self.epoch >= max_epochs:
                        return
                    epoch_runner(data_loaders[i], **kwargs)

再简单看一下Runner中self.train()的核心代码：

    def train(self, data_loader, **kwargs):
        self.model.train()
        self.mode = 'train'
        self.data_loader = data_loader
        self._max_iters = self._max_epochs * len(data_loader)
        self.call_hook('before_train_epoch')
        # 通过 data_loader 喂数据
        for i, data_batch in enumerate(data_loader):
            self._inner_iter = i
            self.call_hook('before_train_iter')
            # 输出训练误差
            outputs = self.batch_processor(
                self.model, data_batch, train_mode=True, **kwargs)
            if not isinstance(outputs, dict):
                raise TypeError('batch_processor() must return a dict')
            if 'log_vars' in outputs:
                self.log_buffer.update(outputs['log_vars'],
                                       outputs['num_samples'])
            self.outputs = outputs
            self.call_hook('after_train_iter')
            self._iter += 1

        self.call_hook('after_train_epoch')
        self._epoch += 1

Runner的更多细节代码不做叙述，但是相信读者在看过图2后，会对Runner的初始化，设置，训练测评等流程有一个宏观了解。

3. 推断

推断过程中的程序调用图如下所示。single_test是网络推断的代码，靠data_loader喂数据，data_loader的设定可以追溯到get_dataset和配置文件上。检测网络在完成推断之后需要计算指标，调用get_official_eval_result。该函数的分析放在指标计算的专题做讲解。

在这里插入图片描述
图3：总体推断流程图

4. 结束语

这篇博客简要讨论了mmDetection框架的训练推断流程。

更专业、系统、实战的高性能计算学习资源地

汇聚原天河团队并行计算工程师、中科院计算所专家以及头部AI名企HPC专家，助力解决“卡脖子”问题

更多推荐

2023湖州师范学院计算机考研信息汇总

学校是国务院学位委员会批准的硕士学位授予单位、全国学雷锋活动示范点、全国助残先进集体，是国家第一批卓越医生教育培养计划和卓越农林人才教育培养计划项目试点高校、浙江省应用型建设试点示范学校、浙江省课堂教学创新校。总成绩实行百分制，计算公式总成绩=初试成绩（换算成百分制）×60%+复试成绩（换算成百分制）×40%计算（复试成绩、总成绩均保留两位小数）。欢迎计算机类、电子信息类、自动化类、数学类、统计学

高性能计算社区

为什么学CUDA可能是一本生超越211/985的秘密武器？——小马的逆袭之路

我叫小马，毕业于哈尔滨理工大学，仪器测量专业。很多人听到我的学校和专业，可能会觉得我与计算机、编程和高性能计算无缘，但事实是，我正是凭借CUDA这一技术，在职业生涯中实现了逆袭。我的起点小时候，我总是对周围的事物保持好奇心。家里的各种小玩意，如闹钟、电视遥控器等，都曾被我拆开过，尝试着了解它们的工作原理。当我进入大学时，选择了仪器测量专业，这是一个综合性很强的专业，涉及到物理、数学、电子技术