论文题目:Detecting Everything in the Open World Towards Universal Object Detection

42acb4ff17654d61dae285ed425de087.png

代码:https://github.com/zhenyuw16/UniDetector

117e1c5d2be32a41278976a7da489d97.png

导读&动机

这篇论文来自清华&港大&meta,论文着眼于通用目标检测(Universal Object Detection)的问题,旨在实现在各种场景中检测各种目标的能力。这也是第一个正式解决通用目标检测问题的工作。

传统的目标检测方法依赖于大规模的标注数据集,但在开放世界中,出现新类别或新场景时,通常需要重新构建数据集,这限制了它们的泛化能力。

为了克服这一挑战,本文提出了UniDetector,这是一种通用目标检测框架,具备两项关键能力:

一是能够利用来自多个来源和异构标签空间的图像进行训练,以获得足够的信息进行泛化;

二是具有出色的开放世界泛化能力,可以预测未在训练中注释的新类别。

为实现这些能力,本文提出了一种分离的训练方法,以处理多源图像和异构标签,同时引入了概率校准方法来提高预测性能。实验证明,UniDetector在各个方面都表现出卓越的性能,是通用目标检测领域的一项重要创新。

本文贡献

  • 提出了UniDetector:UniDetector是一个通用目标检测框架,旨在解决通用目标检测的关键问题。UniDetector能够利用来自多个来源和异构标签空间的图像进行训练,并具备强大的开放世界泛化能力,可以预测未在训练中注释的新类别。

  • 分离训练策略:本文提出了一种分离的训练策略,将 proposal 生成阶段和 RoI(Region of Interest)分类阶段的训练分开。这种策略有助于模型更好地泛化到新类别,避免了在推理时偏向基本类别的问题。

  • 概率校准:引入了概率校准方法,用于平衡模型对不同类别的预测分布,并提高对新类别的预测性能。

相关工作

目标检测方法分类:目标检测方法通常可以分为两种类别:两阶段方法和一阶段方法。两阶段检测器(如RCNN及其变种)首先提取一系列区域建议,然后进行分类和回归。与之不同,一阶段检测器(如YOLO和SSD)直接生成锚点(anchors)的分类结果。还有一些基于Transformer的方法,它们在目标检测领域也取得了迅猛发展。

通用目标检测:传统的目标检测方法仅能检测训练时出现过的类别,而通用目标检测旨在检测未知类别。其中,零样本目标检测方法旨在从已知类别泛化到未知类别,但它们的性能通常远低于全监督方法。开放词汇目标检测则引入了与图像文本对齐的训练,通过文本中的无限词汇来提高模型检测新类别的能力。

多数据集目标检测训练:传统目标检测方法通常仅关注单一数据集,从而限制了模型的数据规模和词汇量。近年来,研究人员开始在多个数据集上训练目标检测模型,以提高其鲁棒性和扩展词汇规模。然而,多数据集目标检测训练面临一个挑战,即如何利用多个异构标签空间。一些方法使用伪标签来统一不同的标签空间,采用分区结构,或使用语言嵌入等方法。

本文方法

0ac014182edd20d60194633e11806e37.png

UniDetector 基本过程包括三个步骤:

  • 大规模图像文本对齐预训练(Image-text pre-training)

  • 异构标签空间训练(Heterogeneous label space training)

  • 开放世界推理(Open-world inference)

1. 大规模图像文本对齐预训练

传统的全监督学习仅依赖视觉信息,依赖于人工标注,从而限制了通用性。为了提高通用性,本文引入了语言嵌入以辅助目标检测。

受到语言-图像预训练的成功启发,本文使用了预训练的图像-文本模型(例如RegionCLIP [63])中的嵌入。这一步骤通过联合图像和文本信息的预训练,为模型提供了丰富的跨模态特征。

2. 异构标签空间训练
ce6d979a27e792348e098c2e1b49b513.png

传统目标检测通常集中在具有相同标签空间的单一数据集上,而UniDetector采用来自不同来源的图像,这些图像具有异构的标签空间,用于训练检测器。

多样性的训练图像对于提高检测器的通用性至关重要。与以前的联合训练不同,本文采用分离训练方式,使 proposal 生成和RoI分类分开进行训练。

具体来说,为了训练具有异构标签空间的通用性检测器并获得多样化的信息,作者提出了三种可能的模型结构:

  • 第一种结构是使用单独的标签空间进行训练,如图3(a),每个数据集都训练一个模型。在推理时,每个模型可以对测试数据进行推断,然后将这些单独的结果组合以获得最终的检测框。

  • 第二种结构是将多个标签空间统一为一个标签空间,如图3(b),然后将数据处理为来自单个数据集的数据,以利用诸如Mosaic或Mixup等技术来增强不同标签空间之间的信息集成。

  • 第三种结构是使用分区结构,如图3(c),在此结构中,来自多个来源的图像共享相同的特征提取器,但具有自己的分类层。在推理时,可以直接使用测试标签的类别嵌入来避免标签冲突。

解耦 proposal 生成和 RoI 分类:在传统的两阶段目标检测器中,proposal 生成阶段和RoI分类阶段具有不同的特性。proposal 生成阶段可以更容易地扩展到新类别,而RoI分类阶段通常会偏向基本类别,并且即使使用语言嵌入,也难以适应新类别。

为了避免这种冲突,作者将这两个阶段分开训练。首先,proposal 生成阶段以ImageNet预训练参数进行初始化,并以类别无关的方式进行训练。然后,RoI分类阶段以图像文本预训练参数进行初始化,并用于预测新类别。这两种预训练参数提供了互补的特征,为通用目标检测提供了更全面的信息。

类无关的定位网络:为了生成开放世界中的通用 proposal ,作者引入了Class-agnostic Localization Network(CLN),它包含了RPN和RoI头部,用于生成通用目标检测的 proposal 。CLN使用基于定位的目标发现,以获得目标的定位置信度。在RoI头部中,基于定位置信度,保留了类别无关的二元分类,因为它为网络训练提供了很强的监督信号。最终的检测置信度通过几何加权计算得出,以平衡分类置信度和定位置信度。

873c332ad4de23085239f9d8457c6538.png
3. 开放世界推理

在开放世界推理中,由于训练过程中未见过新类别,检测器容易产生不自信的预测。为了解决这个问题,作者提出了概率校准方法,以在推理过程中平衡基本类别和新类别之间的预测。

校准的目的是降低基本类别的概率,增加新类别的概率,从而平衡最终的概率预测。概率校准的公式如下:

76b3e52d264ad2685aae7bc4036fae23.png

其中,p_ij表示第i个区域 proposal 的类别特定预测,πj 表示类别 j 的先验概率,γ 是一个预定义的超参数。较大的 πj 表示模型更倾向于该类别。校准后,类别的概率变小,有助于概率平衡。

我们可以首先对测试数据进行推断,并使用结果中的类别数量来获得πj。如果测试图像的数量太小,无法估计准确的先验概率,我们也可以使用训练图像来计算πj。

公式中的 pij 来自于公式(1),反映了第i个区域 proposal 的类别特定预测。考虑到类别无关任务的开放世界泛化能力,我们将 pij 与 CLN 中的目标性分数 ηi 相乘,以得到检测分数。进一步引入超参数 β 后,最终的检测分数为:

1e79ab25a824a979fd49c6e8a0cfe603.png

实验

实验结果
在开放世界目标检测任务中的结果

在这一部分中,作者介绍了UniDetector在开放世界目标检测任务中的结果,并进行了与传统封闭世界实验的比较。

adc106b347198bbefd4754373b76c0fb.png

开放世界检测结果:作者在LVIS v0.5数据集上进行了开放世界检测实验。传统的封闭世界检测器获得了17.7%的AP,而UniDetector只使用了35,000张COCO图像就获得了16.4%的AP。

长尾问题:传统的封闭世界检测器在长尾问题上表现不佳,相对于前景类别的AP(APf)只有1.9%,而UniDetector的APr和APf更加平衡。这表明UniDetector也显著减轻了长尾效应。

多数据集联合训练:在COCO和Objects365的联合训练中,UniDetector的AP达到了22.2%,高于单独训练的16.4%和20.2%。

在其他数据集上的性能:UniDetector在ImageNetBoxes和VisualGenome数据集上也表现出色。

封闭世界中的目标检测结果
b648b3de3bd364f4f5397ac8908a8e51.png

作者在COCO训练集上训练UniDetector,并在COCO 2017验证集上进行评估,将其与现有封闭世界检测模型进行比较,UniDetector同样表现出色。

在各种不同领域的目标检测结果
a3a4853f279271d96a9e1023132b0faa.png

平均AP表现:与GLIP-T相比,GLIP-T的骨干网络(Swin-Tiny)需要比UniDetector(ResNet50)稍多的资源,但我们的方法实现了更高的平均AP(47.3%对比46.5%)。值得注意的是,本文的方法只利用了GLIP-T数据量的3%。这个实验进一步证实了UniDetector的通用性,并展示了其出色的数据效率。

与现有开放词汇方法的实验比较
665c3efc77b2219b02267387901d61f0.png
a453611a7ebcc99babd4e54d809c4aec.png

与现有开放词汇方法的实验比较,采用的数据集是 COCO和LVIS v1数据集,UniDetector在新类别和基本类别上都表现出色。

消融实验
47845919f3944cb37975dedd013ade94.png

分离 proposal 生成和RoI分类:作者通过分离训练方式来探究其影响。实验结果表明,分离训练方式对于开放世界检测具有显著的积极效果,可以提高性能。特别是,使用具有RPN和RoI头部的结构生成 proposal 在开放世界中效果更好,相较于单一的RPN。作者提出的CLN结构进一步提高了性能,达到了更高的AP,超过了其他具有相似预算的网络和更复杂的模型。

073579333ca817bbf97a7eab541401f1.png

概率校准:作者进行了概率校准的实验,以减轻模型的偏见。结果显示,概率校准显著改善了新类别的性能,包括框和掩码的AP都提高了2%以上。这导致了基本类别和新类别之间性能差距的显著缩小,同时基本类别的性能几乎保持不变。

结论

本文提出了一种通用目标检测框架UniDetector。通过利用来自多个来源的图像、异构的标签空间,并将检测器推广到开放世界,UniDetector能够直接在任何场景中检测到所有目标,而无需进行任何微调。对大规模词汇数据集和多样化场景的广泛实验验证了它的强大通用性——它具备了目前为止识别最多类别的能力。通用性是一个重要问题,它连接了人工智能系统与生物机制之间的差距。我们相信我们的研究将激发未来通用计算机视觉研究方向的后续研究。

☆ END ☆

如果看到这里,说明你喜欢这篇文章,请转发、点赞。微信搜索「uncle_pn」,欢迎添加小编微信「 woshicver」,每日朋友圈更新一篇高质量博文。

扫描二维码添加小编↓

58eda75ad6e6c238ad0ff5f9ec78349e.jpeg

Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐