图像处理深度学习人工智能 python 论文阅读：FusionGAN: A generative adversarial network for infrared and visible image fusion

@article{ma2019fusiongan, title={FusionGAN: A generative adversarial network for infrared and visible image fusion}, author={Ma, Jiayi and Yu, Wei and Liang, Pengwei and Li, Chang and Jiang, Junjun}, journal={Information fusion}, volume={48}, pages={11–26}, year={2019}, publisher={Elsevier} }

[论文下载地址]

文章目录

论文解读关键词核心思想甆网络结构甆生成器

G_{\theta G}

GθG结构甆判别器

D_{\theta D}

DθD结构

损失函数生成器

G_{\theta G}

GθG的损失函数

\mathcal L_G

LG判别器

D_{\theta D}

DθD的损失函数

\mathcal L_D

数据集训练设置实验评价指标聾Baseline实验结果消融实验多分辨率融合更多实验结果及分析

传送门图像融合相关论文阅读笔记图像融合论文baseline总结其他论文其他总结✨精品文章总结

论文解读

关键词

Image fusion, infrared image, visible image, generative adversarial network, deep learning. 图像融合，红外图像，可见光图像，生成对抗网络，深度学习

核心思想

使用GAN实现红外与可见光图像融合（infrared and visible image fusion，VIF）。

具体来说，生成器的目标是产生具有较大红外强度和附加可见梯度的融合图像，判别器的目标是迫使融合图像拥有更多可见图像中的细节。通过这种方法，可以生成同时具有红外图像中显著目标和可见光图像纹理细节的融合图像。此外，FusionGAN是一个端到端的模型，因此省略了手工设计活动水平测量和融合规则的步骤。而且，FusionGAN可以融合不同分辨率的图像，如高分辨率的可见光图像和低分辨率的红外图像。

ps. 这是【第一篇】将GAN用于图像融合任务的论文

参考链接 [一文看懂「生成对抗网络 - GAN」基本原理+10种典型算法+13种应用] [什么是图像融合？（一看就通，通俗易懂）]

甆网络结构

作者提出的FusionGAN网络结构如下图所示。作者将红外与可见光图像融合问题公式化为一个对抗问题。首先将红外图像

I_r

Ir和可见光图像

I_v

Iv在通道维度上拼接在一起，将拼接图像输入生成器

G_{\theta G}

GθG，生成器

G_{\theta G}

GθG的输出为融合图像

I_f

If。因为此时还没有引入判别器

D_{\theta D}

DθD，所以融合图像更倾向于保留红外图像

I_r

Ir中热辐射信息以及可见光图像

I_v

Iv的梯度信息。然后，将融合图像

I_f

If和可见光图像

I_v

Iv输入到判别器

D_{\theta D}

DθD中，使判别器学习区分融合图像和可见光图像。这个过程不断循环，融合图像

I_f

If逐渐包含越来越多的可见光图像

I_v

Iv中的细节信息。训练过程如上图左所示，测试过程如上图右所示。

训练过程在此过程中，一旦判别器

D_{\theta D}

DθD无法有效区分生成器

G_{\theta G}

GθG生成的融合图像

I_f

If，此时就得到了期望的融合图像

I_f

If。测试过程在此过程中，只将红外图像

I_r

Ir和可见光图像

I_v

Iv输入到【训练好的】生成器

G_{\theta G}

GθG中，得到的融合图像

I_f

If就是最终的融合结果。

甆生成器

G_{\theta G}

GθG结构

因为下采样会导致信息的丢失，所以作者没有引入下采样层。

甆判别器

D_{\theta D}

DθD结构

损失函数

作者提出的损失函数主要由两部分组成：生成器

G_{\theta G}

GθG的损失函数和判别器

D_{\theta D}

DθD的损失函数。

生成器

G_{\theta G}

GθG的损失函数

\mathcal L_G

LG代表损失值，

(

)

V_{FusionGAN}(G)

VFusionGAN(G)代表生成器

G_{\theta G}

GθG和判别器

G_{\theta D}

GθD之间的对抗损失。如下式：

I_f^n

Ifn代表第n个融合图像，N代表融合图像总数。c是生成器希望判别器对【假数据】（即融合图像）的相信值。第二项

\mathcal L_{content}

Lcontent代表内容损失，

\lambda

λ用于平衡

(

)

V_{FusionGAN}(G)

VFusionGAN(G)和

\mathcal L_{content}

Lcontent。因为红外图像热辐射信息由像素强度表征，红外图像纹理细节信息由梯度表征。作者希望融合图像

I_f

If具有与红外图像

I_r

Ir相同的强度以及与可见光图像

I_v

Iv相同的梯度。所以内容损失

\mathcal L_{content}

Lcontent定义为： H和W为图像高和宽（像素），

∣

⋅

∣

||·||_f

∣∣⋅∣∣f表示矩阵弗罗贝尼乌斯范数（matrix Frobenius norm），∇是梯度算子，ξ是一个用于权衡两项的正参数。【用人话说，matrix Frobenius norm就是矩阵所有对应元素的平方和再开方，具体定义可以类比向量的L2范数】

参考资料 [弗罗贝尼乌斯范数（Frobenius norm）] [Frobenius norm(Frobenius 范数)]

上式括号内第一项是为了使红外图像

I_r

Ir中热辐射信息保留在融合图像

I_f

If中上式括号内第二项是为了使可见光图像

I_v

Iv中梯度信息保留在融合图像

I_f

If中

大家可能会有疑问，只使用生成器

G_{\theta G}

GθG就可以得到融合图像

I_f

If了，为什么还需要判别器

G_{\theta D}

GθD呢？作者给出的解释是，的确可以直接得到保留热辐射信息和梯度信息的融合图像，但是这并不够，因为可见光图像中的纹理细节不能完全被梯度表示（在后续实验中作者进行了验证）。

判别器

D_{\theta D}

DθD的损失函数

\mathcal L_D

a和b分别代表融合图像

I_f

If和红外图像

I_r

Ir的标签，

(

)

D_{\theta D}(I_v)

DθD(Iv)和

(

)

D_{\theta D}(I_f)

DθD(If)分别代表对可见光图像和融合图像的分类结果。作者使用了最小二乘损失函数，服从皮尔逊

χ^2

χ2散度最小化。这种方法可以让训练过程更稳定，同时使判别器

D_{\theta D}

DθD收敛速度更快。

数据集

从TNO数据库中选取45对不同场景的红外-可见光图像对，步长为14切分为120*120像素的图像，共64381对图像。像素值归一化至[-1, 1]选取m对图像作为生成器

G_{\theta G}

GθG训练数据，填充至132×132，作为生成器的输入，输出120×120的融合图像选取m对图像作为判别器

D_{\theta D}

DθD的输入。融合图像标签a是0至0.3的随机数，可见光图像标签b是0.7至1.2的随机数，标签c也是0.7至1.2的随机数。（标签abc都不是特定的数字，即“软标签”）

图像融合数据集 [图像融合常用数据集整理]

训练设置

实验

评价指标

entropy (EN) 熵standard deviation (SD)标准差structural similarity index measure (SSIM)结构相似度度量correlation coefficient (CC)相关系数spatial frequency(SF)空间频率visual information fidelity (VIF)视觉保真度

参考资料 [图像融合定量指标分析]

聾Baseline

adaptive sparse representation (ASR)curvelet transform (CVT)dual-tree complex wavelet transform (DTCWT)fourth order partial differential equation (FPDE)guided filtering based fusion (GFF)ratio of low-pass pyramid (LPP)two-scale image fusion based on visual saliency(TSIFVS)gradient transfer fusion (GTF)

参考资料 [图像融合论文baseline及其网络模型]

实验结果

消融实验

下图证明了对抗训练的重要性，每列前两行分别为红外图像和可见光图像，第三行是部对抗训练，直接使用生成器产生的融合结果，第四行为加入对抗训练的融合结果。可以看出仅由梯度作为损失是不够的，可见光图像可以对融合结果的细节纹理产生有效约束。

多分辨率融合

实验设计：对红外图像进行下采样，作为低分辨率红外图像，可见光图像保持不变。因为分辨率已经不同，因此不能直接concat，所以将低分辨率红外图像插值，从而生成同样分辨率的红外图像，再按照之前操作即可。即，

分辨率相同：同等分辨率->直接concat->输入生成器分辨率不同：先对低分辨率的红外图像插值，生成与可见光图像分辨率相同的新的插值的红外图像->后续操作一样

因为融合图像和原始红外图像的分辨率不一样，公式5损失函数重定义为： φ是下采样操作，即将融合图像下采样至与低分辨率红外图像相同的分辨率。为什么不对红外图像上采样呢？因为上采样不可避免的会引入噪声。

更多实验结果及分析

更多实验结果及分析可以查看原文： [论文下载地址]

传送门

图像融合相关论文阅读笔记

[PIAFusion: A progressive infrared and visible image fusion network based on illumination aw] [Visible and Infrared Image Fusion Using Deep Learning] [CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for Multi-Modality Image Fusion] [U2Fusion: A Unified Unsupervised Image Fusion Network]

图像融合论文baseline总结

[图像融合论文baseline及其网络模型]

其他论文

[3D目标检测综述：Multi-Modal 3D Object Detection in Autonomous Driving：A Survey]

其他总结

[CVPR2023、ICCV2023论文题目汇总及词频统计]

✨精品文章总结

✨[图像融合论文及代码整理最全大合集] ✨[图像融合常用数据集整理]

如有疑问可联系：420269520@qq.com; 码字不易，【关注，收藏，点赞】一键三连是我持续更新的动力，祝各位同学早发paper，顺利毕业~

参考文章

评论可见，请评论后查看内容，谢谢！！！

您阅读本篇文章共花了：

金钥匙

图像处理深度学习人工智能 python 论文阅读：FusionGAN: A generative adversarial network for infrared and visible image fusion

【论文阅读笔记】Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation

算法语音识别机器学习 [论文阅读] 基于辅助函数的IVA（使用源先验的四阶关系）

发表评论取消回复

金钥匙

图像处理 深度学习 人工智能 python 论文阅读：FusionGAN: A generative adversarial network for infrared and visible image fusion

【论文阅读笔记】Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation

算法 语音识别 机器学习 [论文阅读] 基于辅助函数的IVA（使用源先验的四阶关系）

相关文章

发表评论取消回复

图像处理深度学习人工智能 python 论文阅读：FusionGAN: A generative adversarial network for infrared and visible image fusion

算法语音识别机器学习 [论文阅读] 基于辅助函数的IVA（使用源先验的四阶关系）