机器人学习--视觉定位数据集介绍

对于移动机器人的视觉定位而言，其实平台是否是机器人不重要，无人车、自动驾驶或者手持相机等都可以。一、区分几个概念1. visual place recognition，视觉位置识别，只是将inquiry image （当前采集到的图像）与之前图像数据库中的做匹配（matching），匹配成功，或者相似度最大的那个数据库图像所在的位置范围就是当前图像所找到的位置。注释：此处的place是一

Robot-G

1850人浏览 · 2021-11-18 16:17:16

Robot-G · 2021-11-18 16:17:16 发布

对于移动机器人的视觉定位而言，其实平台是否是机器人不重要，无人车、自动驾驶或者手持相机等都可以。

一、区分几个概念

1. visual place recognition，视觉位置识别，只是将inquiry image （当前采集到的图像）与之前图像数据库中的做匹配（matching），匹配成功，或者相似度最大的那个数据库图像所在的位置范围就是当前图像所找到的位置。

注释：此处的place是一个大概的范围，不需要精确的相机空间坐标 pose。

2. location recognition 可能有点相似。自己参考论文去甄别

3. image based localization （IBL）这个就是需要求出相机的准确位姿 pose了。

二、方法

1. 图像特征的提取、转换保存和匹配。这个五花八门，从点特征、线特征、面特征、组合特征、神经网络卷积的特征、局部特征、全局特征等；特征提取后的转换包括词袋模型（Bag-of-Words）等。匹配方法包括 ransac、flann等等。

本质就是：预先采集图像数据库（一幅幅的离散图像）、当前正在采集的图像提取特征、与数据库中的匹配（类似于数据结构的查找/ 或者图像检索 image retrieval）、匹配成功后再做其他决策。

2. 定位可能涉及到2D-3D的匹配和计算问题。多视几何书籍、slam等书籍内容可以参考。

数据集：（不一定是最新的最全的，只是参考）

2017年CVPR的一篇论文--源自百度无人驾驶团队

Sun X, Xie Y, Luo P, et al. A dataset for benchmarking image-based localization[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 7436-7444.

下载链接：CVPR 2017 Open Access Repositoryhttps://openaccess.thecvf.com/content_cvpr_2017/html/Sun_A_Dataset_for_CVPR_2017_paper.html

或者：2017-A_Dataset_for_CVPR_2017_paper.pdf-互联网文档类资源-CSDN下载视觉定位的数据集，2017年CVPR上的一篇文章更多下载资源、学习资料请访问CSDN下载频道.https://download.csdn.net/download/GGY1102/44308575

自己理解：实际上人类或者机器人所工作的环境中，有太多的特征；低级别、抽象高级别的；不能仅依赖于激光扫的点云（距离点或线或面）、或相机扫的彩色像素；可以考虑太多特征辅助定位。目前的数据集，一旦采集后，总有些局限性，毕竟机器人所携带的相机不能随时按照用户的想法灵活移动或采集相应的信息。不能陷入别人的定义域里面。自己用一套算法，提取一些特征，实现了定位，搞出一篇论文，足矣

视觉SLAM相关数据集

KITTI数据集

KITTI数据集由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办，是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集。该数据集用于评测立体图像(stereo)，光流(optical flow)，视觉测距(visual odometry)，3D物体检测(object detection)和3D跟踪(tracking)等计算机视觉技术在车载环境下的性能。KITTI包含市区、乡村和高速公路等场景采集的真实图像数据，每张图像中最多达15辆车和30个行人，还有各种程度的遮挡与截断。

下载地址：http://www.cvlibs.net/datasets/kitti/eval_object.php

EuRoC数据集

EuRoC数据集包含11个双目序列，这些序列是由微型飞行器在两个不同的房间和一个大型工业环境中飞行时记录下来的。提供两种类型的数据集: 第一个包含来自Leica多站的三维位置地面真值，并着重于视觉惯性的评估SLAM算法在一个真实的工业场景。

下载地址：https://projects.asl.ethz.ch/datasets/doku.php?id=kmavvisualinertialdatasets

TUM数据集

数据集包含一些室内的序列，在不同的纹理下，不同的光照和不同的结构条件，从RGB-D传感器采集到的数据中分别去评估物体的重建和SLAM/视觉里程计的性能。TUM提供很多数据集，从各个有利位置捕获对象，每个条目中包含图像序列、相应的轮廓和完整的校准参数。

下载地址：https://vision.in.tum.de/data/datasets/rgbd-dataset/download

Oxford数据集

对牛津的一部分连续的道路进行了上百次数据采集，收集到了多种天气、行人和交通情况下的数据，也有建筑和道路施工时的数据，总的数据长度达1000小时以上。

下载地址：https://robotcar-dataset.robots.ox.ac.uk/

ICL-NUIM数据集

该集旨在对RGB-D、视觉测距和SLAM算法进行基准测试。两个不同的场景（起居室和办公室场景）提供了基本事实。客厅具有3D表面地面实况以及深度图和相机姿势，因此完美地适用于不仅用于标记相机轨迹而且还用于重建。办公室场景仅带有轨迹数据，并且没有任何明确的3D模型。

下载地址：http://www.doc.ic.ac.uk/~ahanda/VaFRIC/iclnuim.html

RGB-D对象数据集

RGB-D对象数据集是300个常见家庭对象的大型数据集。这些对象被分为51个类别。该数据集使用Kinect风格的3D相机来记录，该相机以30Hz记录同步和对准的640x480 RGB和深度图像。拍摄时将每个物体放置在转盘上旋转一整圈并捕获视频序列。对于每个对象，有3个视频序列，每个视频序列都安装在不同高度的摄像机上，以便从与地平线不同的角度观察对象。

下载地址：http://rgbd-dataset.cs.washington.edu/