点击下方“AI算法与图像处理”,一起进步!

重磅干货,第一时间送达

ICCV 2021 数据集汇总

https://github.com/DWCTOD/ICCV2021-Papers-with-Code-Demo#dataset

诸如VAE、pix2pix和SPADE等流行模型的感知质量和定量性能。我们进一步展示了它在StyleGAN2上的潜力。

FineAction: A Fined Video Dataset for Temporal Action Localization

paper:https://arxiv.org/abs/2105.11107

数据集:https://deeperaction.github.io/fineaction/

说明:

为了将时间动作定位提升到一个新的水平,我们开发了FineAction,一个从现有视频数据集和web视频中收集的新的大规模精细视频数据集。总的来说,该数据集包含139K个精细动作实例,在跨越106个动作类别的近17K个未剪辑视频中进行了密集注释。

KoDF: A Large-scale Korean DeepFake Detection Dataset

https://arxiv.org/abs/2103.10094

https://moneybrain-research.github.io/kodf

面对不断出现的deepfakes威胁,我们建立了Korean DeepFake检测数据集(KoDF),这是一个大规模的合成和真实视频集合。

LLVIP: A Visible-infrared Paired Dataset for Low-light Vision

https://arxiv.org/abs/2108.10831

https://bupt-ai-cz.github.io/LLVIP/

在弱光条件下,由于有效目标区域的丢失,对图像融合、行人检测和图像到图像的转换等各种视觉任务来说都是非常具有挑战性的。在这种情况下,红外和可见光图像可以一起使用,以提供丰富的细节信息和有效的目标区域。在本文中,我们介绍了LLVIP,一个用于弱光视觉的可见-红外配对数据集。该数据集包含33672幅图像,或16836对图像,其中大部分是在非常黑暗的场景中拍摄的,所有图像在时间和空间上都严格对齐。

Meta Self-Learning for Multi-Source Domain Adaptation: A Benchmark

https://arxiv.org/abs/2108.10840

https://bupt-ai-cz.github.io/Meta-SelfLearning/

由于训练数据和测试数据之间的域转移,模型可能会被破坏。文本识别是计算机视觉中一个广泛研究的领域,由于字体的多样性和复杂的背景,文本识别也面临上述问题。我们收集了一个用于文本识别的多源域自适应数据集,包括五个不同的域,包含超过500万张图像,这是我们所知的第一个多域文本识别数据集。

MultiSports: A Multi-Person Video Dataset of Spatio-Temporally Localized Sports Actions

https://arxiv.org/abs/2105.07404

https://deeperaction.github.io/multisports/

时空行为检测是视频理解中一个重要且具有挑战性的问题。现有的动作检测基准仅限于视频剪辑中的少量实例或低级原子动作。本文旨在提出一种新的时空局部化运动行为的多人数据集,即MultiSports。我们首先通过提出三个标准来分析构建真实且具有挑战性的时空动作检测数据集的重要因素:(1)多人场景和运动相关识别,(2)具有良好定义的边界,(3)相对细粒度的高复杂度类。基于这些指导原则,我们选择了4个体育类,收集了3200个视频片段,并用902k边界框注释了37701个动作实例,构建了MultiSports v1.0的数据集。

Semantically Coherent Out-of-Distribution Detection

https://arxiv.org/abs/2108.11941

https://jingkang50.github.io/projects/scood

当前分布外(OOD)检测基准通常是通过将一个数据集定义为分布内(ID),将所有其他数据集定义为OOD来构建的。然而,不幸的是,这些基准引入了一些不必要和不切实际的目标,例如,完美区分CIFAR狗和ImageNet狗,尽管它们具有相同的语义和可忽略的协变量变化。这些不切实际的目标将导致模型功能的范围非常狭窄,极大地限制了它们在实际应用中的使用。为了克服这些缺点,我们重新设计了基准测试,并提出了语义一致分布外检测(SC-OOD)。在SC-OOD基准测试中,现有方法的性能大幅下降,这表明它们对数据源之间的低级差异极为敏感,而忽略了其固有的语义。为了开发一种有效的SC-OOD检测方法,我们利用外部未标记集,设计了一个简洁的框架,该框架以无监督双分组(UDG)为特征,用于ID和OOD数据的联合建模。该UDG不仅可以在无监督的情况下利用未标记的数据来丰富模型的语义知识,还可以区分ID/OOD样本以同时增强ID分类和OOD检测任务。

The Many Faces of Robustness: A Critical Analysis of Out-of-Distribution Generalization

https://arxiv.org/abs/2006.16241

https://github.com/hendrycks/imagenet-r

我们将介绍四个新的真实世界分布转移数据集,包括图像样式、图像模糊度、地理位置、相机操作等方面的变化。利用我们的新数据集,我们评估了先前提出的提高分布外鲁棒性的方法,并对它们进行了测试。我们发现使用更大的模型和人工数据增强可以提高对真实世界分布变化的鲁棒性,这与先前工作中的主张相反。我们发现,人工鲁棒性基准的改进可以转化为现实世界的分布变化,这与先前工作中的主张相反。基于我们观察到的数据增强有助于实现现实世界的分布变化,我们还引入了一种新的数据增强方法,该方法提高了最先进的技术水平,并优于使用1000倍以上标记数据进行预训练的模型。

Webly Supervised Fine-Grained Recognition: Benchmark Datasets and An Approach

https://arxiv.org/abs/2108.02399

https://github.com/NUST-Machine-Intelligence-Laboratory/weblyFG-dataset

从网络学习可以缓解深度学习对大规模手动标记数据集的极端依赖。特别是针对区分从属类别的细粒度识别,它将通过利用免费web数据显著降低标记成本。尽管具有重要的实用价值和研究价值,但由于缺乏高质量的数据集,网络监督的细粒度识别问题在计算机视觉领域没有得到广泛的研究。为了填补这一空白,在本文中,我们构建了两个新的基准webly监督细粒度数据集,分别称为WebFG-496和WebiNat-5089。具体而言,WebFG-496由三个子数据集组成,共包含53339张网络训练图像,其中包括200种鸟类(网络鸟)、100种飞机(网络飞机)和196种汽车模型(网络汽车)。对于WebiNat-5089,它包含5089个子类别和110多万张web训练图像,这是有史以来最大的webly监督细粒度数据集。


Who's Waldo? Linking People Across Text and Images

https://arxiv.org/abs/2108.07253

https://whoswaldo.github.io/

我们提出了一个任务和基准数据集,用于以人为中心的视觉基础,即标题中命名的人和图像中的人物之间的链接问题。与之前主要基于对象的视觉基础研究不同,我们的新任务掩盖了字幕中的人名,以鼓励在此类图像字幕对上训练的方法关注上下文线索(如多人之间的丰富互动),而不是学习名字和外表之间的联系。为了促进这项任务,我们引入了一个新的数据集,Who'swaldo,它是从wikimediacomons上的图像标题数据中自动挖掘出来的。我们提出了一种基于Transformer的方法,它优于这个任务上的几个强基线,并将我们的数据发布到研究社区,以刺激工作的上下文模型考虑视觉和语言。

Sam Schulz passes to Curtly Hampton during the UWS Giants vs Eastlake NEAFL match at the Robertson Oval on 1 August 2015.

Justyna KowalczykKikkan Randall and Ingvild Flugstad Østberg at the Royal Palace Sprint, part of the FIS World Cup 2012/2013, in Stockholm on March 20, 2013. Kikkan Randall won the sprint cup.

努力分享优质的计算机视觉相关内容,欢迎关注:

交流群

欢迎加入公众号读者群一起和同行交流,目前有美颜、三维视觉、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群

个人微信(如果没有备注不拉群!)
请注明:地区+学校/企业+研究方向+昵称



下载1:何恺明顶会分享
在「AI算法与图像处理」公众号后台回复:何恺明,即可下载。总共有6份PDF,涉及 ResNet、Mask RCNN等经典工作的总结分析
下载2:终身受益的编程指南:Google编程风格指南
在「AI算法与图像处理」公众号后台回复:c++,即可下载。历经十年考验,最权威的编程规范!


下载3 CVPR2021


在「AI算法与图像处理」公众号后台回复:CVPR,即可下载1467篇CVPR 2020论文 和 CVPR 2021 最新论文

Logo

瓜分20万奖金 获得内推名额 丰厚实物奖励 易参与易上手

更多推荐