原文链接:https://openaccess.thecvf.com/content/WACV2024/html/Wu_A_Robust_Diffusion_Modeling_Framework_for_Radar_Camera_3D_Object_WACV_2024_paper.html

1. 引言

本文使用概率去噪扩散模型的技术,提出完全可微的雷达-相机框架。使用校准矩阵将雷达点云投影到图像上后,在特征编码器和BEV下的Transformer检测解码器中引入信息去噪。

在雷达-图像编码器中,首先使用去噪扩散模型(DDM)作用于对齐的雷达特征,然后查询高级语义特征进行特征关联。通过语义特征嵌入,DDM可以利用前景指导。逐点添加关联的雷达特征和图像特征,输入到Transformer解码器中。在Transformer解码器中,也在2D与深度层面引入了查询去噪。

3. 方法

本文的框架分为两个部分:(1)雷达-图像特征编码器:首先对齐雷达与图像输入,并通过全局注意力和带语义嵌入的去噪扩散模型进行完全可微的雷达-图像关联;(2)BEV解码器:引入额外查询,对物体的定位信息进行去噪,解码融合的BEV特征。

3.1 雷达-图像关联

图像通过主干得到图像特征

I

F

R

N

×

C

×

H

×

W

I_F\in\mathbb{R}^{N\times C\times H\times W}

IF​∈RN×C×H×W。由于雷达缺少高度测量,使用CenterFusion中的柱体扩张技术,沿

z

z

z轴扩张雷达点云。然后进行多雷达和自车运动补偿的多帧积累,并投影到图像上得到

R

F

R_F

RF​。

3.2 使用DDM进行全局感知的关联

带语义嵌入的DDM:结构如上图所示。首先建立 从投影的扩展雷达特征 到噪声特征图 的扩散过程,然后训练模型进行逆过程。去噪模型

ϵ

θ

\epsilon_\theta

ϵθ​为两块轻量级残差块(2D卷积 + ReLU + BN)。来自图像的语义嵌入被添加到雷达特征上,并优化马尔科夫链的负对数似然,即对下式进行梯度下降:

θ

ϵ

ϵ

θ

(

α

ˉ

t

R

0

+

1

α

ˉ

t

ϵ

,

t

,

ϕ

e

(

I

F

)

)

2

\nabla_\theta\|\epsilon-\epsilon_\theta(\sqrt{\bar{\alpha}_t}R_0+\sqrt{1-\bar{\alpha}_t}\epsilon,t,\phi_e(I_F))\|^2

∇θ​∥ϵ−ϵθ​(αˉt​

​R0​+1−αˉt​

​ϵ,t,ϕe​(IF​))∥2

其中

α

ˉ

t

=

i

=

1

t

,

α

t

=

1

β

t

\bar\alpha_t=\prod_{i=1}^t,\alpha_t=1-\beta_t

αˉt​=∏i=1t​,αt​=1−βt​,

β

t

\beta_t

βt​为前向扩散过程第

t

t

t步的方差。

ϕ

e

\phi_e

ϕe​为语义特征的嵌入过程:首先对图像特征进行最大池化、clip到

(

0

,

1

)

(0,1)

(0,1),然后将特征分配到均匀离散化的

K

K

K个区间中并嵌入字典。

此外,由于本文是对含噪的雷达特征进行去噪,因此不遵循传统扩散过程。DDM的推断就是在语义嵌入的指导下,从雷达特征

R

F

R_F

RF​到去噪特征

R

d

f

R_{df}

Rdf​的采样过程:

R

t

1

=

1

α

t

(

R

t

1

α

t

1

α

ˉ

t

ϵ

θ

(

R

t

,

t

,

ϕ

e

(

I

F

)

)

+

σ

t

z

)

R_{t-1}=\frac{1}{\sqrt{\alpha_t}}(R_t-\frac{1-\alpha_t}{\sqrt{1-\bar\alpha_t}}\epsilon_\theta(R_t,t,\phi_e(I_F))+\sigma_t z)

Rt−1​=αt​

​1​(Rt​−1−αˉt​

​1−αt​​ϵθ​(Rt​,t,ϕe​(IF​))+σt​z)

其中

σ

t

\sigma_t

σt​为与步长相关的、无需训练的常数;

t

>

1

t>1

t>1时,

z

N

(

0

,

I

)

z\sim N(0,I)

z∼N(0,I),

t

=

1

t=1

t=1时

z

=

0

z=0

z=0。

通过语义查询关联:将图像语义特征作为查询与键,去噪雷达特征作为值,输入注意力模块:

X

=

ψ

a

t

t

a

(

P

q

a

(

I

F

)

,

P

k

a

(

I

F

)

,

P

v

a

(

R

d

f

)

)

X=\psi^a_{att}(P_q^a(I_F),P^a_k(I_F),P_v^a(R_{df}))

X=ψatta​(Pqa​(IF​),Pka​(IF​),Pva​(Rdf​))

其中

ψ

a

t

t

a

\psi^a_{att}

ψatta​表示注意力机制 + 输出变形,

P

q

,

k

,

v

a

P^a_{q,k,v}

Pq,k,va​表示拉直 + 投影。

然后,对

X

X

X使用空间注意力

ψ

a

t

t

b

\psi^b_{att}

ψattb​(作用于

H

×

W

H\times W

H×W维度)和通道注意力

ψ

a

t

t

c

\psi^c_{att}

ψattc​(作用于

N

×

C

N\times C

N×C维度),得到

X

S

X_S

XS​与

X

C

X_C

XC​。

X

S

=

ψ

a

t

t

b

(

P

q

b

(

X

)

,

P

k

b

(

X

)

,

P

v

b

(

X

)

T

)

X

C

T

=

ψ

a

t

t

c

(

P

q

c

(

X

)

T

,

P

k

c

(

X

)

T

,

P

v

c

(

X

)

)

X_S=\psi^b_{att}(P_q^b(X),P^b_k(X),P_v^b(X)^T)\\ X_C^T=\psi^c_{att}(P_q^c(X)^T,P^c_k(X)^T,P_v^c(X))

XS​=ψattb​(Pqb​(X),Pkb​(X),Pvb​(X)T)XCT​=ψattc​(Pqc​(X)T,Pkc​(X)T,Pvc​(X))

其中

X

,

X

S

,

X

C

R

N

×

C

×

H

×

W

X,X_S,X_C\in\mathbb{R}^{N\times C\times H\times W}

X,XS​,XC​∈RN×C×H×W。最后将

X

,

X

S

,

X

C

,

I

F

X,X_S,X_C,I_F

X,XS​,XC​,IF​相加得到融合特征

X

f

u

X_{fu}

Xfu​:

X

f

u

=

X

+

γ

S

X

S

+

γ

C

X

C

+

I

F

X_{fu}=X+\gamma_SX_S+\gamma_CX_C+I_F

Xfu​=X+γS​XS​+γC​XC​+IF​

3.3 带定位去噪的BEV解码器

对于使用Transformer解码器的模型,引入3D边界框中心回归的查询去噪。

使用 从带高斯噪声的物体标签 采样得到的

D

D

D组去噪查询,为每组分配

N

D

N_D

ND​个查询(足够大),类似DN-DETR,为去噪查询训练参数掩蔽的注意力操作,仅使用常规可学习查询进行3D边界框的解码。设初始化物体查询为

Q

0

Q_0

Q0​,噪声定位查询

Q

0

x

y

z

Q_0^{xyz}

Q0xyz​,Transformer的第

i

i

i层为

ϕ

i

\phi_i

ϕi​,则

Q

i

+

1

=

ϕ

i

(

ψ

e

n

c

(

X

f

u

)

,

Q

i

,

Q

i

x

y

z

)

Q_{i+1}=\phi_i(\psi_{enc}(X_{fu}),Q_i,Q_i^{xyz})

Qi+1​=ϕi​(ψenc​(Xfu​),Qi​,Qixyz​)

其中

ψ

e

n

c

\psi_{enc}

ψenc​为特征投影。

DN-DETR的Transformer解码器结构如下图所示,其输入查询包括去噪组查询和可学习查询。其中去噪组查询是来自加噪的真值,在计算注意力时只能看到可学习查询和本组去噪查询;可学习查询则只能看到可学习查询。更新后的去噪组查询用于恢复真值,计算重建损失;更新后的可学习查询用于预测3D边界框,损失计算与传统的Transformer解码器相同。

3.4 去噪框架的损失函数

去噪查询组与常规可学习查询一样,和融合特征交互,但不进行匈牙利匹配,因为它们是在去噪准备阶段通过一对一匹配初始化得到的。总损失为:

L

=

γ

1

L

D

D

M

+

γ

2

L

r

e

g

+

γ

3

L

c

l

s

+

γ

4

L

x

y

z

\mathcal{L}=\gamma_1\mathcal{L}_{DDM}+\gamma_2\mathcal{L}_{reg}+\gamma_3\mathcal{L}_{cls}+\gamma_4\mathcal{L}_{xyz}

L=γ1​LDDM​+γ2​Lreg​+γ3​Lcls​+γ4​Lxyz​

其中分类损失为focal损失,回归损失为L1损失,xyz损失为DN-DETR中的重建损失。

4. 实验与结果

4.3 与基准方案比较

在BEVDet、PETR与BEVFormer(均为图像单一模态方法)的基础上添加本文的去噪方法,性能均有提升,特别是在速度估计精度上。

4.4 与SotA比较

与不使用激光雷达数据作为监督的方法(相机单一模态方法或雷达相机融合方法)相比,本文的方法能在NDS指标上位列第一,且能大幅超过两阶段雷达相机融合方法CenterFusion和CRAFT。

4.5 网络分析

去噪雷达-相机框架的分析:实验表明,在PETR的基础上逐步添加雷达关联、DDM、语义嵌入、2D查询去噪、3D查询去噪,能逐步提高性能。

带语义嵌入的DDM分析:若将DDM的输入从原始雷达特征改为加噪雷达特征,性能会有所下降。这表明雷达传感器自身具有的模糊特性。

雷达特征的分析:使用雷达的距离信息、速度信息对3D检测有利,但进一步添加RCS信息对性能没有提升。

相关链接

评论可见,请评论后查看内容,谢谢!!!
 您阅读本篇文章共花了: