作者 | 派派星 编辑 | CVHub

点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

点击进入→自动驾驶之心【深度估计】技术交流群

5f96233a1119dbdcfbe7e661f80cc7f7.png

Title: Iterative Geometry Encoding Volume for Stereo Matching
Paper: https://arxiv.org/pdf/2303.06615.pdf
Code: https://github.com/gangweiX/IGEV

导读

23de370ed3add8f6cc6a80bc22c96ba4.png
Comparison with state-of-the-art stereo methods on KITTI 2012 and 2015 leaderboards

RAFT在立体匹配任务中显示出了巨大的潜力。然而,其使用的All-pairs Correlations缺乏非局部几何知识,难以处理病态区域(如遮挡、重复纹理、低纹理、高反等区域)的局部歧义

本文中,作者提出了Iterative Geometry Encoding Volume(IGEV),一种新的立体匹配的深度网络体系结构。提出的IGEV-Stereo构建了一个Combined Geometry Encoding Volume,该Volume编码几何和上下文信息以及局部匹配细节,并迭代地对其进行索引以更新视差图。为了加快收敛速度,作者利用GEV回归出ConvGRUs迭代的准确初值。

IGEV-Stereo在KITTI 2015和2012(Reflective)中在所有发布的方法中排名第一(如上图所示),是前10个方法中最快的。此外,IGEV-Stereo具有较强的跨数据集泛化性和较高的推理效率。作者还将IGEV扩展到Multi-View Stereo(MVS),即IGEV-MVS,它在DTU基准测试上实现了具有竞争力的精度。

贡献

现有的先进的双目立体匹配方法,主要分为基于代价滤波的方法以及基于迭代优化的方法(以RAFT为代表)。前者可以在cost volume中编码足够的非局部几何和上下文信息,这对于具有挑战性的区域中的视差预测至关重要。后者可以避免进行3D代价聚合所需的高计算和内存成本,但是仅基于All-pairs Correlations的方法在病态区域的能力较弱。

322cc8e82cf095a1bc51c4f33c198905.png
Qualitative results on the test set of KITTI

为了结合这两种方法的互补优势,论文提出了一种新的立体匹配范式——迭代几何编码体 (Iterative Geometry Encoding Volume, IGEV-Stereo)(如上图所示),其结合了更全面和精炼的几何和上下文信息,论文的主要贡献如下:

  1. 为了解决病态区域引起的模糊性问题。论文使用一个极轻量级的3D正则化网络对cost volume进行聚合和正则化,得到一个几何编码体(GEV)(结果如上图c所示),与RAFT-Stereo的All-pairs Correlations(结果如上图b所示)相比,GEV在聚合后编码了更多的场景几何和上下文信息。

  2. 为了解决边界和微小细节处出现过度平滑的情况。论文将GEV和RAFT中的All-pairs Correlations相结合,形成了组合几何编码体 (Combined Geometry Encoding Volume, CGEV),并输入到 ConvGRU-based update operator 中进行迭代视差图优化(结果如上图d所示)。

方法

f1ffd08f8cc3de0c07689d254a4880fa.png
Overview of our proposed IGEV-Stereo

IGEV-Stereo它由一个多尺度feature extractor,一个Combined Geometry Encoding Volume,一个基于ConvGRU的Update Operator,以及一个Spatial Upsampling模块组成。

Feature Extractor

特征提取器包括两部分:

  1. 特征网络,提取多尺度特征用于cost volume构建和指导代价聚合

  2. 上下文网络,提取多尺度上下文特征用于ConvGRUs隐藏状态初始化和更新

Feature Network

论文使用在ImageNet上预训练的MobileNet V2将输入图降采样到1/32,然后通过上采样得到多尺度特征:

f3bf4e6143aad814abad5581bf2a40e8.png

其中  和  用于构建cost volume

Context Network

同RAFT-Stereo一样,上下文网络由一系列残差块和下采样层组成,在输入128个通道图像分辨率的1/4、1/8和1/1/16处产生多尺度上下文特征。多尺度上下文特征用于初始化基于ConvGRU的更新操作符的隐藏状态,并在每次迭代时插入到ConvGRU中。

Combined Geometry Encoding Volume

拿到和,沿着通道维度将特征划分为组,并逐组计算correlation maps,构建一个4维的group-wise correlation volume:

5aafb3672f6553cba1d2647f323199e1.png

仅基于特征相关性的cost volume 缺乏捕获全局几何结构的能力。(按照传统的立体匹配算法,此时需进行代价聚合)。为了解决这个问题,论文进一步使用轻量级的三维正则化网络进一步处理,得到geometry encoding volume :

f9b6dc407c8025eea761627b81f5c14b.png

三维正则化网络  基于一个轻量级的3D UNet,它由三个下采样块和三个上采样块组成。首先论文遵循CoEx的方法,它用从参考图像(左图)的特征图计算的权重来激活cost volume的channels,以进行代价聚合,得到的guided cost volume表示为:

11efd4c968c4d70eb9e3fb8a6bde4bbe.png

是sigmoid激活函数,是哈达玛积(Hadamard Product)。三维正则化网络  插入到guided cost volume的激活操作中,可以有效地推断和传播场景全局几何信息,从而得到geometry encoding volume 。同时,论文还计算了相应的左右特征之间的all-pairs correlations(APC),以得到局部特征相关性

为了增大感受野,论文使用kernel size大小为2、stride为2的1D average pooling来池化视差维度,形成一个两层的特征金字塔和all-pairs correlation 特征金字塔。然后将和结合起来,形成一个组合的combined geometry encoding volume。

ConvGRU-based Update Operator

给ConvGRU-based Update Operator提供了一个更好的初始视差能够使得迭代视差优化更快地收敛

论文使用soft argmin从geometry encoding volume 中回归出一个初始化视差:

5e86bb7c28e5a1145fb79b13eb9fc1e9.png

其中  是1/4分辨率的视差index。从初始化的输入视差开始,论文使用三级ConvGRUs来迭代地更新视差。使用多尺度context features初始化三级ConvGRUs的隐状态(hidden state)。

对于每次迭代,论文使用当前的视差,通过线性插值对combined geometry encoding volume进行索引,生成一组几何特征。计算表示为:

8fe41530d2c74e3357613277f06dbc8e.png

其中,为索引半径,表示池化操作。这些几何特征和当前的视差预测通过两个编码器层,然后与连接形成。然后使用ConvGRUs更新隐藏状态

6e61ca0004f77ea8455d2af7d0081f51.png

这里,、、是由上下文网络生成的上下文特征。基于隐藏状态,论文通过两个卷积层得到视差残差,然后更新当前的视差:

3414f078b8bac417ad8002e166907b49.png

Spatial Upsampling

论文利用了在1/4分辨率下预测的视差,通过加权组合来生成完整分辨率的视差图

Loss Function

77085b5487f8d9f78f26d962e74392fe.png defb3b0915f83bbd681800d09fe9bdbd.png

实验

消融实验

Effectiveness of CGEV
9cce758fc770a9026955001d6d913570.png
表1 Ablation study of proposed networks on the Scene Flow test set

如表1所示,论文所提出的 geometry encoding volume(GEV)可以显著提高预测精度,因为GEV可以提供非局部信息和场景先验知识。为了补充局部相关性,论文结合了GEV和all-pairs correlations,形成了一个combined geometry encoding volume(CGEV),表示为IGEV-Stereo,性能最好

Number of Iterations
4a8d184da626be425cf23ac9321824d8.png
表2 Ablation study for number of iterations

如表2所示,IGEV-Stereo即使经过很少的迭代,也已经达到了最先进的性能,使用户能够根据他们的需要来权衡时间效率和性能。

Configuration Exploration
142952e75c729442b999bfe2274ef361.png
表3 Ablation experiments. Settings used in our final model are underlined.

如表3所示,即使构建一个1/8分辨率的GEV,只需要额外的5ms,论文的方法仍然在Scene Flow上实现了最先进的性能。当使用具有更多参数的backbone时,即MobileNetV2 120d和ConvNeXt-B,性能可以得到提高。

Comparisons with State-of-the-art

850e38cdef657f6f4ec98343bd3a7471.png
表4 Quantitative evaluation on Scene Flow test set

如表4所示,在Scene Flow上,IGEV-Stereo实现了新的SOTA EPE 0.47。

9807013d06434a173b4661db15805462.png
表5 Quantitative evaluation on KITTI 2012 and KITTI 2015

如表5所示,IGEV-Stereo在KITTI 2012和2015上的几乎所有指标都获得了最好的性能。在撰写本文时,IGEV-Stereo在KITTI 2015上实现SOTA。与其他基于迭代的方法如CREStereo和RAFT-Stereo相比,IGEV-Stereo不仅性能优于他们,而且还快了2×。

eabb1479b149041f9adc7c967217a36d.png
Qualitative results on the test set of KITTI

如上图所示,IGEV-Stereo在高反、无纹理和细节的区域中表现得非常好。

14a18f2ca79ec09fa7d9db52a8a39003.png
表6 Evaluation in the reflective regions (ill-posed regions) of KITTI 2012 benchmark

如表6所示,IGEV-Stereo在KITTI 2012的反射区域排行榜上排名第一,其表现远远优于RAFT-Stereo,IGEV-Stereo只使用8次迭代就比使用32次迭代的RAFT-Stereo性能更好

Zero-shot Generalization

379d9e241d3143ad6f194e6e2d172953.png
表7 Synthetic to real generalization experiments

论文评估了IGEV-Stereo从合成数据集到看不见的真实场景的泛化性能。论文在合成的Scene Flow数据集上训练IGEV-Stereo,并直接在真实的Middlebury 2014和ETH3D训练集上进行测试。如表7所示,IGEV-Stereo在相同的zero-shot设置下实现了最先进的性能。

e09d70d4604e5ad6d3cb1d3b3e1c700b.jpeg
Generalization results on Middlebury 2014 and ETH3D. Second and the third rows are the results of RAFT-Stereo and IGEV-Stereo, respectively

如上图所示,与RAFT-Stereo的视觉比较,IGEV-Stereo对无纹理和细节的区域更鲁棒。

Extension to MVS

50256ae09887b76c3aa5d890561325c9.png
表8 Quantitative evaluation on DTU
b4ba1da69a37ff6d7cd0659370d15aef.png
Visualization of results on DTU  test set.

论文将IGEV扩展到multi-view stereo(MVS),即IGEV-MVS,在室内多视角立体数据集DTU benchmark进行评估。如表8所示,IGEV-MVS获得了最好的总体分,这是完整性和准确性的平均值。

总结

本文提出了Iterative Geometry Encoding Volume(IGEV),这是一种用于立体匹配和多视角立体视觉也的深度网络架构。IGEV构建一个combined geometry encoding volume编码几何和上下文信息以及局部匹配细节,并迭代地对其进行索引以更新视差图IGEV-Stereo在KITTI 2015 leaderboard中排名第一,并实现了最先进的跨数据集泛化能力。拓展的IGEV-MVS在DTUbenchmark上也取得了具有竞争力的性能。

论文使用一个轻量级的3D CNN来过滤cost volume并获得GEV。然而,当处理显示出较大视差范围的高分辨率图像时,使用3D CNN来处理由此产生的大尺寸 cost volume仍然会导致较高的计算和内存成本。未来的工作包括设计一个更轻量级的正则化网络。此外,论文还将探索利用cascaded cost volumes,使本文的方法适用于高分辨率图像。

往期回顾

史上最全综述 | 3D目标检测算法汇总!(单目/双目/LiDAR/多模态/时序/半弱自监督)

视频课程来了!

自动驾驶之心为大家汇集了毫米波雷达视觉融合、高精地图、BEV感知、传感器标定、传感器部署、自动驾驶协同感知、语义分割、自动驾驶仿真、L4感知、决策规划、轨迹预测等多个方向学习视频,欢迎大家自取(扫码进入学习)

affd111191b915659611b2f7ed3eae00.png

(扫码学习最新视频)

国内首个自动驾驶学习社区

近1000人的交流社区,和20+自动驾驶技术栈学习路线,想要了解更多自动驾驶感知(分类、检测、分割、关键点、车道线、3D目标检测、Occpuancy、多传感器融合、目标跟踪、光流估计、轨迹预测)、自动驾驶定位建图(SLAM、高精地图)、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频,期待交流!

61a7c921e34e5b489443a23e84490dee.jpeg

自动驾驶之心】全栈技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多传感器融合、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向;

59e81193412e9b0f5830bccf1fa54b16.jpeg

添加汽车人助理微信邀请入群

备注:学校/公司+方向+昵称

Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐