图像对齐深度学习算法调研

参考博客：旷视 R TALK：图像对齐及其应用单应性Homograph估计：从传统算法到深度学习1. 传统算法大致流程：提取特征点特征匹配RANSAC 排除错误匹配求解单应性（Homograph）矩阵难点：弱纹理、无纹理（特征少，难以提取）低光图像、噪声干扰（特征集中在局部，对齐效果差）重复纹理（特征匹配容易出错）大前景干扰大视差深度视差（单应性变换本身的局限性）2. 深度学习算法2.1 Deep

秋山丶雪绪

6636人浏览 · 2020-11-23 20:31:44

秋山丶雪绪 · 2020-11-23 20:31:44 发布

参考博客：
旷视 R TALK：图像对齐及其应用
 单应性Homograph估计：从传统算法到深度学习

1. 传统算法

大致流程：

提取特征点
特征匹配
RANSAC 排除错误匹配
求解单应性（Homograph）矩阵

难点：

弱纹理、无纹理（特征少，难以提取）
低光图像、噪声干扰（特征集中在局部，对齐效果差）
重复纹理（特征匹配容易出错）
大前景干扰
大视差
深度视差（单应性变换本身的局限性）

2. 深度学习算法

2.1 Deep Image Homography Estimation（2016）

论文地址

创新：

数据集

原始图像取一个矩形区域 A（蓝色框）
对 A 的四个顶点做一定范围（黄色框）的随机位移（红色箭头）得到一个不规则区域（不规则绿色框）
根据位移向量可以求得 $\mathrm{H^{AB}}$ 和 $\mathrm{H^{BA}}$
对原图做 $\mathrm{H^{BA}}$ 变换，得到矩形区域 B（矩形绿色框）
将 A 和 B 输入给网络求得 $\mathrm{H^{AB}}$

网络结构

直接预测出单应性矩阵参数比较困难，因此网络预测的是4个顶点的位移量（右边回归网络），然后再计算单应性矩阵。
文中说没有置信度会限制一些应用，就搞了左边的分类网络，将4个顶点的位移范围划分为21个区间，输出落在每个区间的概率值。

优点：

对弱纹理和无纹理图像优于传统算法；

缺点：

训练数据是人工变形得到的，真实世界图像存在内容上差异，导致对真实世界图像的对齐效果较差；

2.2 Unsupervised Deep Homography: A Fast and Robust Homography Estimation Model（2017）

论文地址
 代码地址

创新：

网络结构

图(a)为2.1的监督算法，图(b)为传统算法，图(c)为此文无监督算法。
$\mathrm{\tilde{H}_{4pt}}$ 为预测的4个顶点位移向量，结合4个顶点的位置坐标 $\mathrm{C^A_{4pt}}$ ，通过 Tensor DLT（Direct Linear Transform）得到单应性矩阵 $\mathrm{\tilde{H}}$ ；之后通过空间变换层得到图像 $\mathrm{\tilde{P}^B}$ ，并与实际图像 $\mathrm{P^B}$ 计算光度损失（像素点间的 L1 损失）。
其中，Tensor DLT（代替 SVD 奇异值分解）和空间变换层都是为了便于梯度计算，使网络得以训练。

优点：

相比监督算法，对真实世界图像的对齐效果较好；
对图像特征的表达比较鲁棒，不像传统方法很依赖特征点；

缺点：

数据集主要用的航拍图像，适合单个单应性矩阵做对齐；
深度视差、RANSAC

2.3 Content-Aware Unsupervised Deep Homography Estimation（2019）

论文地址
 代码地址

创新：

数据集

制作了一套数据集分为5大类，并为了量化评估，手工标注了5000张图像作为ground truth；
1. Regular（RE）：纹理丰富，单平面远景适合用单个单应性矩阵对齐
2. Low texture（LT）：纹理少
3. Low light（LL）：低光图像
4. Small Foregrounds（SF）：小前景
5. Large Foreground（LF）：大前景
网络结构

令 $\beta \in \{a,b\}$
此文认为直接用像素值当特征不太好，通过 $f(\cdot)$ 获取深层特征 $F_{\beta}$ ，并通过 $m(\cdot)$ 生成 mask $M_{\beta}$ 。这里的特征和 mask 都和原图 $I_{\beta}$ 分辨率相同，其中 $m(\cdot)$ 的作用与 RANSAC 相似，生成的 mask 可以看作是特征的权重，来衡量特征的重要性，从而可以忽略一些干扰的特征（如干扰前景）。 $G_{\beta}=F_{\beta}M_{\beta}$ 输入给后续的单应性估计网络，同样预测4个位移向量，并通过一个线性系统得到单应性矩阵 $\mathcal{H}_{a b}$ 。

损失计算：
$\min _{m, f, h} \mathbf{L}_{\mathbf{n}}\left(I_{a}^{\prime}, I_{b}\right)+\mathbf{L}_{\mathbf{n}}\left(I_{b}^{\prime}, I_{a}\right)-\lambda \mathbf{L}\left(I_{a}, I_{b}\right)+\mu\left\|\mathcal{H}_{a b} \mathcal{H}_{b a}-\mathcal{I}\right\|_{2}^{2}$
其中，
$\mathbf{L}_{\mathbf{n}}\left(I_{a}^{\prime}, I_{b}\right)=\frac{\sum_{i} M_{a}^{\prime} M_{b} \cdot\left\|F_{a}^{\prime}-F_{b}\right\|_{1}}{\sum_{i} M_{a}^{\prime} M_{b}}$ ， $i$ 表示特征图和mask中的像素索引

$\mathbf{L}\left(I_{a}, I_{b}\right)=\left\|F_{a}-F_{b}\right\|_{1}$

$\mathcal{H}_{b a}$ 通过将 $I_a$ 和 $I_b$ 的特征位置互换得到

损失函数前两项最小化变换后图像特征的差异，第三项是为了避免全零解最大化原始图像特征差异，第四项则是让两个单应性变换尽可能可逆。
（2021.10.25）后续发现提供的代码用 torch.nn.TripletMarginLoss() 替代了论文描述的损失函数（TripletMarginLoss解析），基本就是只保留上面损失的1、3项，第4项在 utils.py 里留了个口 getBatchHLoss()；主要问题在于 mask 的训练，从 loss 分析如果 mask 是全为0那么 loss 会最低，这显然不对；mask 加入训练时，github 上说用一个小学习率微调网络，结合反向传播和数据来看，前景差异大，背景差异小，则 mask 的前景部分会更快地趋向于0，那么 mask 是有效的，但是关键在于这个数据集是分割视频生成的，背景部分差异很小，后面发现很多对齐用的公开数据集即使是背景差异也非常大，这个 mask 的策略基本就是无效的了。

优点：

解决 RANSAC 问题，主要避免前景干扰

缺点：

深度视差

2.4 DeepMeshFlow: Content Adaptive Mesh Deformation for Robust Image Registration（2019）

论文地址

Mesh Flow 大致就是把图像划分为网格，每个网格对应一个单应性矩阵，从而适应图像中的不同深度平面来对齐。
在这里插入图片描述

创新：

网络结构

ResNet-34 后面连接 $K$ 个分支（ $K = 3$ ），每个分支从一个自适应池化层开始，并通过卷积层生成一个特定大小的 mesh flow：

$\mathcal{M}_{1}^{\prime} \to \left(\frac{H_{g}}{16}+1\right) \times\left(\frac{W_{g}}{16}+1\right) \times 2=2 \times 2 \times 2$

$\mathcal{M}_{2}^{\prime} \to \left(\frac{H_{g}}{4}+1\right) \times\left(\frac{W_{g}}{4}+1\right) \times 2=5 \times 5 \times 2$

$\mathcal{M}_{3} \to \left(H_{g}+1\right) \times\left(W_{g}+1\right) \times 2=17 \times 17 \times 2$

然后将粗尺度 $\mathcal{M}_{1}^{\prime}$ 和 $\mathcal{M}_{2}^{\prime}$ 上采样至 $\mathcal{M}_{3}$ 分辨率，并融合 $\mathcal{M}_{1}$ 、 $\mathcal{M}_{2}$ 、 $\mathcal{M}_{3}$ 。

mesh flow 的融合通过一个场景分割网络将图像 $I$ 分割为 $K$ 个类别，输出大小为 $\left(H_{g}+1\right) \times\left(W_{g}+1\right) \times K$ ，融合方式是直接按分类结果选择每个点的位移向量用哪个 mesh flow 的对应值，最终得到 $\mathcal{M}^{*}$ 。之后的 loss 计算与 2.3 相同。