@article{ma2019fusiongan, title={FusionGAN: A generative adversarial network for infrared and visible image fusion}, author={Ma, Jiayi and Yu, Wei and Liang, Pengwei and Li, Chang and Jiang, Junjun}, journal={Information fusion}, volume={48}, pages={11–26}, year={2019}, publisher={Elsevier} }
[论文下载地址]
文章目录
论文解读关键词核心思想甆网络结构甆生成器
G
θ
G
G_{\theta G}
GθG结构甆判别器
D
θ
D
D_{\theta D}
DθD结构
损失函数生成器
G
θ
G
G_{\theta G}
GθG的损失函数
L
G
\mathcal L_G
LG判别器
D
θ
D
D_{\theta D}
DθD的损失函数
L
D
\mathcal L_D
LD
数据集训练设置实验评价指标聾Baseline实验结果消融实验多分辨率融合更多实验结果及分析
传送门图像融合相关论文阅读笔记图像融合论文baseline总结其他论文其他总结✨精品文章总结
论文解读
关键词
Image fusion, infrared image, visible image, generative adversarial network, deep learning. 图像融合,红外图像,可见光图像,生成对抗网络,深度学习
核心思想
使用GAN实现红外与可见光图像融合(infrared and visible image fusion,VIF)。
具体来说,生成器的目标是产生具有较大红外强度和附加可见梯度的融合图像,判别器的目标是迫使融合图像拥有更多可见图像中的细节。通过这种方法,可以生成同时具有红外图像中显著目标和可见光图像纹理细节的融合图像。 此外,FusionGAN是一个端到端的模型,因此省略了手工设计活动水平测量和融合规则的步骤。 而且,FusionGAN可以融合不同分辨率的图像,如高分辨率的可见光图像和低分辨率的红外图像。
ps. 这是【第一篇】将GAN用于图像融合任务的论文
参考链接 [一文看懂「生成对抗网络 - GAN」基本原理+10种典型算法+13种应用] [什么是图像融合?(一看就通,通俗易懂)]
甆网络结构
作者提出的FusionGAN网络结构如下图所示。 作者将红外与可见光图像融合问题公式化为一个对抗问题。首先将红外图像
I
r
I_r
Ir和可见光图像
I
v
I_v
Iv在通道维度上拼接在一起,将拼接图像输入生成器
G
θ
G
G_{\theta G}
GθG,生成器
G
θ
G
G_{\theta G}
GθG的输出为融合图像
I
f
I_f
If。 因为此时还没有引入判别器
D
θ
D
D_{\theta D}
DθD,所以融合图像更倾向于保留红外图像
I
r
I_r
Ir中热辐射信息以及可见光图像
I
v
I_v
Iv的梯度信息。 然后,将融合图像
I
f
I_f
If和可见光图像
I
v
I_v
Iv输入到判别器
D
θ
D
D_{\theta D}
DθD中,使判别器学习区分融合图像和可见光图像。这个过程不断循环,融合图像
I
f
I_f
If逐渐包含越来越多的可见光图像
I
v
I_v
Iv中的细节信息。 训练过程如上图左所示,测试过程如上图右所示。
训练过程 在此过程中,一旦判别器
D
θ
D
D_{\theta D}
DθD无法有效区分生成器
G
θ
G
G_{\theta G}
GθG生成的融合图像
I
f
I_f
If,此时就得到了期望的融合图像
I
f
I_f
If。测试过程 在此过程中,只将红外图像
I
r
I_r
Ir和可见光图像
I
v
I_v
Iv输入到【训练好的】生成器
G
θ
G
G_{\theta G}
GθG中,得到的融合图像
I
f
I_f
If就是最终的融合结果。
甆生成器
G
θ
G
G_{\theta G}
GθG结构
因为下采样会导致信息的丢失,所以作者没有引入下采样层。
甆判别器
D
θ
D
D_{\theta D}
DθD结构
损失函数
作者提出的损失函数主要由两部分组成:生成器
G
θ
G
G_{\theta G}
GθG的损失函数和判别器
D
θ
D
D_{\theta D}
DθD的损失函数。
生成器
G
θ
G
G_{\theta G}
GθG的损失函数
L
G
\mathcal L_G
LG
L
G
\mathcal L_G
LG代表损失值,
V
F
u
s
i
o
n
G
A
N
(
G
)
V_{FusionGAN}(G)
VFusionGAN(G)代表生成器
G
θ
G
G_{\theta G}
GθG和判别器
G
θ
D
G_{\theta D}
GθD之间的对抗损失。如下式:
I
f
n
I_f^n
Ifn代表第n个融合图像,N代表融合图像总数。c是生成器希望判别器对【假数据】(即融合图像)的相信值。 第二项
L
c
o
n
t
e
n
t
\mathcal L_{content}
Lcontent代表内容损失,
λ
\lambda
λ用于平衡
V
F
u
s
i
o
n
G
A
N
(
G
)
V_{FusionGAN}(G)
VFusionGAN(G)和
L
c
o
n
t
e
n
t
\mathcal L_{content}
Lcontent。 因为红外图像热辐射信息由像素强度表征,红外图像纹理细节信息由梯度表征。作者希望融合图像
I
f
I_f
If具有与红外图像
I
r
I_r
Ir相同的强度以及与可见光图像
I
v
I_v
Iv相同的梯度。所以内容损失
L
c
o
n
t
e
n
t
\mathcal L_{content}
Lcontent定义为: H和W为图像高和宽(像素),
∣
∣
⋅
∣
∣
f
||·||_f
∣∣⋅∣∣f表示矩阵弗罗贝尼乌斯范数(matrix Frobenius norm),∇是梯度算子,ξ是一个用于权衡两项的正参数。 【用人话说,matrix Frobenius norm就是矩阵所有对应元素的平方和再开方,具体定义可以类比向量的L2范数】
参考资料 [弗罗贝尼乌斯范数(Frobenius norm)] [Frobenius norm(Frobenius 范数)]
上式括号内第一项是为了使红外图像
I
r
I_r
Ir中热辐射信息保留在融合图像
I
f
I_f
If中 上式括号内第二项是为了使可见光图像
I
v
I_v
Iv中梯度信息保留在融合图像
I
f
I_f
If中
大家可能会有疑问,只使用生成器
G
θ
G
G_{\theta G}
GθG就可以得到融合图像
I
f
I_f
If了,为什么还需要判别器
G
θ
D
G_{\theta D}
GθD呢? 作者给出的解释是,的确可以直接得到保留热辐射信息和梯度信息的融合图像,但是这并不够,因为可见光图像中的纹理细节不能完全被梯度表示(在后续实验中作者进行了验证)。
判别器
D
θ
D
D_{\theta D}
DθD的损失函数
L
D
\mathcal L_D
LD
a和b分别代表融合图像
I
f
I_f
If和红外图像
I
r
I_r
Ir的标签,
D
θ
D
(
I
v
)
D_{\theta D}(I_v)
DθD(Iv)和
D
θ
D
(
I
f
)
D_{\theta D}(I_f)
DθD(If)分别代表对可见光图像和融合图像的分类结果。 作者使用了最小二乘损失函数,服从皮尔逊
χ
2
χ^2
χ2散度最小化。这种方法可以让训练过程更稳定,同时使判别器
D
θ
D
D_{\theta D}
DθD收敛速度更快。
数据集
从TNO数据库中选取45对不同场景的红外-可见光图像对,步长为14切分为120*120像素的图像,共64381对图像。像素值归一化至[-1, 1]选取m对图像作为生成器
G
θ
G
G_{\theta G}
GθG训练数据,填充至132×132,作为生成器的输入,输出120×120的融合图像选取m对图像作为判别器
D
θ
D
D_{\theta D}
DθD的输入。融合图像标签a是0至0.3的随机数,可见光图像标签b是0.7至1.2的随机数,标签c也是0.7至1.2的随机数。(标签abc都不是特定的数字,即“软标签”)
图像融合数据集 [图像融合常用数据集整理]
训练设置
实验
评价指标
entropy (EN) 熵standard deviation (SD)标准差structural similarity index measure (SSIM)结构相似度度量correlation coefficient (CC)相关系数spatial frequency(SF)空间频率visual information fidelity (VIF)视觉保真度
参考资料 [图像融合定量指标分析]
聾Baseline
adaptive sparse representation (ASR)curvelet transform (CVT)dual-tree complex wavelet transform (DTCWT)fourth order partial differential equation (FPDE)guided filtering based fusion (GFF)ratio of low-pass pyramid (LPP)two-scale image fusion based on visual saliency(TSIFVS)gradient transfer fusion (GTF)
参考资料 [图像融合论文baseline及其网络模型]
实验结果
消融实验
下图证明了对抗训练的重要性,每列前两行分别为红外图像和可见光图像,第三行是部对抗训练,直接使用生成器产生的融合结果,第四行为加入对抗训练的融合结果。可以看出仅由梯度作为损失是不够的,可见光图像可以对融合结果的细节纹理产生有效约束。
多分辨率融合
实验设计:对红外图像进行下采样,作为低分辨率红外图像,可见光图像保持不变。因为分辨率已经不同,因此不能直接concat,所以将低分辨率红外图像插值,从而生成同样分辨率的红外图像,再按照之前操作即可。即,
分辨率相同:同等分辨率->直接concat->输入生成器分辨率不同:先对低分辨率的红外图像插值,生成与可见光图像分辨率相同的新的插值的红外图像->后续操作一样
因为融合图像和原始红外图像的分辨率不一样,公式5损失函数重定义为: φ是下采样操作,即将融合图像下采样至与低分辨率红外图像相同的分辨率。 为什么不对红外图像上采样呢?因为上采样不可避免的会引入噪声。
更多实验结果及分析
更多实验结果及分析可以查看原文: [论文下载地址]
传送门
图像融合相关论文阅读笔记
[PIAFusion: A progressive infrared and visible image fusion network based on illumination aw] [Visible and Infrared Image Fusion Using Deep Learning] [CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for Multi-Modality Image Fusion] [U2Fusion: A Unified Unsupervised Image Fusion Network]
图像融合论文baseline总结
[图像融合论文baseline及其网络模型]
其他论文
[3D目标检测综述:Multi-Modal 3D Object Detection in Autonomous Driving:A Survey]
其他总结
[CVPR2023、ICCV2023论文题目汇总及词频统计]
✨精品文章总结
✨[图像融合论文及代码整理最全大合集] ✨[图像融合常用数据集整理]
如有疑问可联系:420269520@qq.com; 码字不易,【关注,收藏,点赞】一键三连是我持续更新的动力,祝各位同学早发paper,顺利毕业~
参考文章
发表评论