日期

2022 ECCV

论文标题

MVSTER: Epipolar Transformer for Efficient Multi-View Stereo

摘要

Recent deep multi-view stereo (MVS) methods have widely incorporated transformers into cascade network for high-resolution depth estimation, achieving impressive results. However, existing transformer based methods are constrained by their computational costs, preventing their extension to finer stages. In this paper, we propose a novel crossscale transformer (CT) that processes feature representations at different stages without additional computation. Specifically, we introduce an adaptive matching-aware transformer (AMT) that employs different interactive attention combinations at multiple scales. This combined strategy enables our network to capture intra-image context information and enhance inter-image feature relationships. Besides, we present a dual feature guided aggregation (DFGA) that embeds the coarse global semantic information into the finer cost volume construction to further strengthen global and local feature awareness. Meanwhile, we design a feature metric loss (FM Loss) that evaluates the feature bias before and after transformation to reduce the impact of feature mismatch on depth estimation. Extensive experiments on DTU dataset and Tanks and Temples (T&T) benchmark demonstrate that our method achieves state-of the-art results. Code is available at https://github.com/wscstrive/CTMVSNet

引用信息(BibTeX格式)

@misc{wang2022mvster, title={MVSTER: Epipolar Transformer for Efficient Multi-View Stereo}, author={Xiaofeng Wang, Zheng Zhu, Fangbo Qin, Yun Ye, Guan Huang, Xu Chi, Yijia He and Xingang Wang}, journal={arXiv preprint arXiv:2204.07346}, year={2022} }

已有方法的优缺点及解决的问题

Problem Statement: 融合代价体是整个流程中的关键步骤,许多 MVS 的方法都是基于这种方法进行研究。其核心是探索 Multi-view 图像之间的相关性。MVSNet遵循的理念是各种图像对3D代价体均有相同的贡献,并利用方差操作来融合不同的代价体。然而,这种融合方法忽视了不同视图的多种光照和可见性条件。

Possible solutions: 为了减轻这个问题,Transmvsnet、Patchmatchnet、CDS-MVSNet通过可变卷积网络(DCN)来丰富2D特征语义,并且PVA-MVSNet、Vis-MVSNet利用额外的网络来学习每个像素的权重,作为融合多视图特征的指导。

Drawbacks of these solutions: 但是,这些方法引入了大量的网络参数,影响了效率。此外,它们仅集中于2D局部相似性作为关联多视图的标准,忽略了深度上的3D关联,这可能导致3D空间中的不一致性。

本文采用什么方法及其优缺点

通过Transformer,从数据本身学习3D关系,而不引入额外的学习参数。探索一种有效的方法来建模3D空间关联融合源视图体。

MVSSTER 概述

MVSTER网络结构如图所示。给定参考图像及其对应的源图像,首先利用FPN特征金字塔网络提取2D多尺度特征。然后将源图像特征变化到参考摄像机坐标系下,通过可微单应性构造源体(Sec. 3.1) 。随后,利用极线Transformer聚合源体并产生代价体,辅助分支进行单目深度估计以增强上下文。该体由轻量级3D CNN正则化以进行深度估计(Sec. 3.2) 。进一步以级联结构构建,以粗到细的方式传播深度图 (Sec. 3.3). 。为了减少深度传播过程中的错误深度假设,将深度估计制定为深度感知分类问题,并使用最优传输对其进行优化。最后给出了网络损失(Sec. 3.4) 。 optimal transport 被用来优化深度信息

1. 2D编码器和3D单应性

应用类似 FPN 的网络提取参考图像及其邻近的源图像多尺度2D特征,其中图像降尺度M次以构建深度特征Fk。尺度k = 0表示图像的原始大小。通过单应性变化得到 N−1 个源体 {Vi}N−1∈H×W ×C×D,其中 D 是假设深度的总数。

F

i

=

0

,

.

.

.

,

N

1

k

=

0

,

.

.

.

,

M

1

F^{k=0,...,M-1}_{i=0,...,N-1}

Fi=0,...,N−1k=0,...,M−1​ 中的

M

1

M-1

M−1 为得到特征的数量,

N

1

N-1

N−1 为图像数量

p

s

i

=

K

i

(

R

0

,

i

(

K

0

1

P

r

d

j

)

+

t

0

,

i

)

p_{s_{i}}=K_{i}\cdot(R_{0,i}\cdot({K_{0}^{-1}}\cdot P_r \cdot d_j)+ t_{0,i})

psi​​=Ki​⋅(R0,i​⋅(K0−1​⋅Pr​⋅dj​)+t0,i​)

2、Epipolar Transformer

Epipolar Transformer 从不同的视图聚合源体,mapping a query and a set of key-value pairs to an output。Epipolar Transformer 利用参考特征作为query,沿着极线匹配源特征(key),从而增强相应的深度(value)。具体来说,通过单目深度估计的辅助任务来丰富参考query。随后,交叉注意力在极线约束下计算query和source体之间的关联,生成注意力引导以聚合来自不同视图的特征体。 然后,通过轻量级 3D CNN 对聚合特征进行正则化。下面,首先给出query构造的细节,然后详细说明对极线Transformer 引导的特征聚合。 最后给出了轻量级正则化策略。

Query Construction(查询向量)。如前所述,我们将参考特征视为Epipolar transformer的query。 然而,由浅层 2D CNN 提取的特征在非朗伯和低纹理区域的判别性降低。 为了解决这个问题,一些方法利用代价较高的的DCN或 ASPP 来丰富特征。 相比之下,本文提出了一种更有效的方法来增强query:构建一个辅助单目深度估计分支来规范query并学习深度判别特征。 在辅助分支中应用了单目深度估计任务中使用的通用解码器。 给定通过 FPN 提取的多尺度参考特征,通过插值扩展低分辨率特征图,并将其与后续尺度的特征进行拼接。 聚合的特征图被输入回归以进行单目深度估计:

其中Φ(⋅)是单目深度解码器,I(⋅)是插值函数,[⋅,⋅]表示连接操作。 随后,针对不同尺度的查询进行单目深度估计。值得注意的是,这种辅助分支仅用于训练阶段,指导网络学习深度感知特征。

Epipolar Transformer Guided Aggregation(极线Transformer引导聚合)。在构建 key features(查询特征)的3D关联。 然而,深度方向的3D空间信息不是由2D查询特征图明确传递的,因此我们首先通过homography warping恢复深度信息。 将查询特征pr的假设深度位置投影到源图像极线上,得到源体特征psi,j,即极线 transformer的key。因此,沿极线的关键特征被用来构建查询特征的深度 3D 关联,这是通过交叉注意力操作实现的:

其中vi∈C×D为{psi,j}沿深度维叠加计算,te为温度参数,wi为查询与键的相关的注意力。在图2(b)中可视化一个真实图像的例子,其中注意力集中在极线上最匹配的位置。

(a)极线Transformer聚合。利用单应性变化恢复参考特征的深度信息,然后在极限约束下交叉注意计算查询与源体之间的3D关联,生成注意力引导以聚合不同视角的特征体。(b) DTU数据集上交叉注意力得分的可视化,其中极线上点的不透明度表示注意力得分。

计算出的query和keys之间的注意力wi用于聚合values。对于Transformer的value设计,使用分组相关,以有效的方式测量参考特征与源体之间的视觉相似性:

〈·,·〉是内积。沿着通道维度进行堆叠,得到si∈G×D,这是Transformer的value。最后,通过极线注意力得分wi聚合value,以确定最终的代价体:

总之,对于所提出的极线Transformer,首先利用 a detachable monocular depth estimation branch(可分离的单目深度估计分支)来增强深度判别2D语义,然后利用查询和键之间的交叉注意力来构建深度方向的 3D 关联。 最后,结合2D和3D信息用作聚合不同视图的指导。极线Transformer被设计为一个高效的聚合模块,其中没有引入可学习的参数,并且极线Transformer只学习依赖数据的关联。

Lightweight Regularization(轻量级正则化)。由于非朗伯表面或物体遮挡,原始代价体容易受到噪声污染。 为了平滑最终的深度图,使用3D CNN来对代价体进行正则化。考虑到已将3D关联嵌入到代价体中,在3D CNN 中省略了深度特征编码,这使其更有效。 具体来说,将卷积核大小从3 × 3 × 3减小到3 × 3 × 1,仅沿特征宽度和高度聚合代价体。 正则化概率体P ∈ H × W × D。

3. 级联深度图传播

MVSTER设置了四个阶段的管道,其中四个阶段的输入分辨率为H × W × 64,H/2×W/2×32, H/4 × W/4 ×16, H/8 × W/8 ×8。第一阶段采用深度逆采样初始化深度假设,相当于像素空间等距采样。为了实现由粗到细的深度图传播,每个阶段的深度假设都以前一阶段的深度预测为中心,在假设的深度范围内统一生成Dk个假设。

4. 损失

虽然级联结构受益于粗到细的管道,但它很难从前面阶段引入的错误中恢复过来。为了缓解这个问题,一个简单的方法是在每个阶段生成一个更精细的深度图,特别是避免预测深度远离真实值。然而,以往的方法简单地将深度估计视为一个多类分类问题,对每个假设深度一视同仁,没有考虑它们之间的距离关系。例如,在下图中,最左边的子数字是一个真实深度,情况1和情况2是两个预测深度分布,他们的交叉熵损失是相同的,说明交叉熵损失不知道每个假设深度之间的相对距离。但是,case 1的深度预测超出了有效范围,无法正常传播到下一阶段。

在本文中,深度预测被表述为深度感知分类问题,它强调了预测深度与真实距离的惩罚。具体来说,用现成的Wasserstein距离来测量预测分布Pi∈D与真实分布Pθ,i∈D之间的距离:

其中,inf表示极值,Π(Pi, Pθ,i)是边缘分布为Pi和Pθ,i的所有可能分布的集合。这样的公式是受最优传输问题的启发,该问题计算将Pi传输到的最小功Pθi,可以通过沉角算法差分求解。

综上所述,损失函数由两部分组成:测量预测深度分布与真实值之间距离的Wasserstein损失和优化单目深度估计的L1损失:

使用的数据集和性能度量

DTU, Tanks&Temples, BlendedMVS,ETH3D

好文阅读

评论可见,请评论后查看内容,谢谢!!!
 您阅读本篇文章共花了: