IEEETIM自监督学习论文笔记

论文名称:JIANet: Jigsaw-Invariant Self-supervised Learning of Auto-encoder Based Reconstruction for Melanoma Segmentation 论文下载: link 论文年份:IEEE TIM2022 论文代码:https://github.com/Jessejx/Self-supervised-method-for-Melanoma-Segmentation

文章目录

IEEETIM自监督学习论文笔记Abstract:一、Introduction二、Related Work2.1 Contrastive Self-Supervised Learning2.2 Generative Self-supervised Learning2.3 Self-supervised Learning for Melanoma Diagnosis

三、METHODOLOGYJigsaw-Invariant Instance DiscriminationAuto-encoding ReconstructionNetwork Details:

四、Experiments and Analysis4.1 实验数据集4.2 Comparison with State-of-the-art Methods4.3 Comparison on the Few-Shot Learning ISIC4.4 Comparison on the Robustness ISIC4.5 消融实验Effects of Each Individual Task:Effect of the number of patches and the negative sample

Abstract:

The automatic diagnosis and segment of melanoma, as an emerging technology of biomedical image processing, is important in clinical practice. Earlier diagnoses melanoma can expand treatment options, improve the quality of patients’ lives and reduce their treatment costs. Although several prior works have reached the state-of-the-art lesion segmentation achievement with Convolution Neural Network (CNN), developing an automatic segmentation solution is still challenging because pixel-level annotation of medical images is expensive and timeconsuming. In this paper, we solve the aforementioned problems by a Jigsaw-Invariant Self-supervised Learning of Autoencoder- Based Reconstruction (JIANet) with the unlabeled melanoma images. Specifically, JIANet incorporates a jigsaw-invariant instance discrimination task to explore image-level features, and an autoencoding reconstruct task to discover pixel-level features, which capture discriminative representations and explore the pixel details from unlabeled melanoma images. We evaluate the proposed method of transfer performance on segmentation downstream tasks, including many-shot segmentation, few-shot segmentation and robustness regime, respectively. Through extensive experiments demonstrating the superiority of JIANet, which achieve 83.8% Dice Coefficient and 74.7% Jaccard index on the ISIC dataset, apparently outperforms the state-of-the-art methods and supervised method.

皮肤镜图像黑色素瘤的自动诊断和分割作为一种新兴的生物医学图像处理技术,在临床实践中具有重要意义。 早期诊断黑色素瘤可以扩大治疗选择,提高患者的生活质量,并降低治疗成本。 尽管之前的几项工作已经通过卷积神经网络 (CNN) 达到了最先进的病变分割成就,但开发自动分割解决方案仍然具有挑战性,因为医学图像的像素级注释既昂贵又耗时。 在本文中,我们通过使用未标记的黑色素瘤图像进行基于自动编码器的重建 (JIANet) 的拼图不变自监督学习来解决上述问题。 具体来说,JIANet 结合了一个拼图不变的实例辨别任务来探索图像级特征,并结合了一个自动编码重建任务来发现像素级特征,从未标记的黑色素瘤图像中捕获判别表示并探索像素细节。 我们评估了所提出的分割下游任务的传输性能方法,包括大规模数据、小样本数据分割和鲁棒性性能分析。 通过大量实验,证明了 JIANet 的优越性,在 ISIC2017 数据集上实现了 83.8% 的 Dice 系数和 74.7% 的 Jaccard 指数,明显优于最先进的方法和监督方法。

一、Introduction

[医学图像/黑色素瘤分析] 生物信息学可以定义为将生物数据转化为知识的计算方法,传统的人工医学图像分析逐渐被基于计算机视觉的生物信息学所慢慢取代。黑色素瘤是最危险的癌症之一,因为它能够迅速扩散到其他器官,而且很难被发现。即使是专业的皮肤科医生也不能仅仅依靠他们的视觉和感知来对黑色素瘤进行分类。计算机视觉使用深度学习技术可以帮助研究人员在初始阶段诊断恶性黑色素瘤。

[基于计算机视觉医学影像分析的优势] 一方面,随着深度卷积神经网络(Deep Convolutional Neural Network, DCNN)的发展,DCNN已经成功应用于各种生物医学表征学习和分割。另一方面,具有深度学习技术的图形加速器卡的最新进展为DCNN设定了新的基准。研究人员可以设计具有更丰富表征的复杂神经网络,或者分析高分辨率医学图像。目前来说,许多研究员提出了黑色素瘤分割方法,取得了较为不错的结果。

[自监督学习的原理] 自监督学习可以被看做介于无监督学习和有监督学习之间的一种中间形式,可以避免昂贵且耗时的数据注释和收集。自监督学习的总体框架如下图所示,并分为两个部分所进行学习。首先,自监督方法自动生成的伪标签学习视觉特征。其次,学习到的特征作为预训练的模型,并被转移到具有少量人工注释标签的下游任务。下游任务是多个不同的任务,用于评估特征的质量,如通过微调进行黑色素瘤分割。

[已有的解决方案] 主流的自我监督可以概括为两大类:生成式和对比式。最近的研究[18][19]提出通过生成式自监督学习生成真实的医学图像和相应的注释来预训练模型。同时,基于对比的自监督学习方法在视网膜疾病分类[1]、胸片病理检测[20]、皮肤病变分类[2][3]等医学图像上取得了不可思议的成绩。这些方法取得了巨大的成功,甚至超过了监督学习。

[已有的方案的局限性] 然而,与医学图像诊断和分类不同,黑色素瘤分割必须通过对每像素任务[12][23]进行逐像素的预测来实现。对比学习在分割任务中存在一定局限性,研究[4]揭示了基于对比学习的方法往往陷入隐藏空间表示退化现象,牺牲了增强分类任务精度的泛化能力。 其次,生成式模型关注像素空间的重建误差来学习表示,这导致这类模型过度关注像素细节,而没有学习到视觉表示。使用变分推理训练的基于生成的模型导致了在未标记数据集上的表示学习的进步,但这些方法在我们的黑色素瘤预训练任务中存在后验塌陷,从而学习无用和不正确的潜在表示。为此,设计了一个新的借口任务来学习黑色素瘤分割任务的视觉特征表示。

考虑到上述问题,在本文中,针对病灶分割结果不仅取决于全局语义特征,还受限于像素级别信息的问题,提出一种融合全局实例级别特征与像素级别局部特征信息方法。通过拼图不变性的个体判别任务丰富皮肤镜图像上下文空间信息,利用个体判别任务学习正负样本之间的差异性。利用最大均值偏差的正则重构,保存重要特征于隐空间,进一步学习像素级别的先验信息,具体贡献如下:

为了避免人工标注和清洗标签,我们结合了一个jigsaw不变实例识别任务和一个用于黑色素瘤分割的自动编码重建任务。我们提出了一种新的借口任务,将特征分割为学习jigsaw变换的不变特征和可重建的像素级特征细节,避免了表征退化和后视塌缩问题。在Few-shot ISIC dataset 和Robustness ISIC dataset上的大量实验证明了我们的方法优于现有方法(见图7和表III)

二、Related Work

在此,我们简单回顾目前的自监督学习方法与相关的医学图像自监督学习方法。

2.1 Contrastive Self-Supervised Learning

【50】提出了NCE lossSwAV 基于online clustering 和多视角图像增强自监督学习【27】首次提出了个体判别任务【32】它的改进版本在潜在空间中引入了同一图像的多个视图,并从其他样本中提取。Kaiming提出了动态字典和查询向量的MoCo个体判别任务Hinton提出了基于大batch的SimCLR个体判别,随后出现了不需要负样本的BYOL

虽然BYOL和MoCo等对比学习方法取得了令人难以置信的成绩,但在分类问题[25]上能力有限,这是由于潜在空间的早期退化导致的,这意味着模型对判别任务过度拟合,失去了对其他任务的泛化能力。

2.2 Generative Self-supervised Learning

【30】将编码器输入训练为显式向量,并将解码器从向量重建输入图像,是一种著名的生成方法。【31】它的改进版本,即结合变分推理和自编码器结构的变分自编码器(VAE)中首次提出,其中数据的生成过程是建模的【33】提出了一个深度条件生成模型,通过使用高斯潜变量来构造输出预测。【34】作者最小化了模型分布和目标分布之间的Wasserstein距离的惩罚形式。【35】学习了从原始图像中发现可解释的因子化潜在表征。尽管生成模型在MNIST数据集中得到了验证,但在实际情况下,生成模型更难学习表示,同时难以拟合于自然图像在自然图像中训练。

上述问题可能是因为使用像素级损失会导致此类方法过于关注细节,降低其复杂结构的能力。

2.3 Self-supervised Learning for Melanoma Diagnosis

黑色素瘤是最危险的一种皮肤癌,很容易在我们体内生长和扩散,从而严重威胁我们的外观和健康。建议有潜在家族病史或长期紫外线过度暴露的人通过皮肤镜进行全身皮肤筛查。通过某些医学图像对个体皮肤的诊断评价,可以展示我们皮肤的不同情况。

【39】提出了自监督模型基于SimCLR的生成医学图像分类而其他针对皮肤病变的基于ssl的方法【40】【41】通过分别部署SwAV和个体判别,可以有效提高分类任务的准确率。

尽管上述工作的表现非常出色,但这些工作仅仅集中在特定的少数镜头条件和神经网络的鲁棒性上,这对于深度学习是否有利于解决这些问题至关重要。

三、METHODOLOGY

在本节中,我们将概述所提出的方法。JIANet主要涉及两个部分:用于学习输入图像的不变视觉表示的孪生编码器网络;具有最大均值差异正则化项的自动编码网络,用于保存像素级特征。在训练过程中,编码器和解码器网络被训练以优化协作损失函数。然后,我们使用从协作任务学习的特征转移到皮肤损伤分割任务。首先,我们将解释实例辨别结构和拼图不变表示学习策略。接下来,我们将介绍最大均值差异正则化项的自动编码方法细节。整体结果如下图所示:

Jigsaw-Invariant Instance Discrimination

其中,记忆储存模块的动态更新如图所示:

Auto-encoding Reconstruction

Network Details:

Loss Functions: The total objective is weighted combination of a jigsaw-invariant discrimination and an auto-encoding reconstruction. The objective is denoted by:

L

l

o

s

s

=

L

J

+

μ

L

A

.

\begin{equation} \begin{aligned} L_{loss} = L_{J} + \mu *L_{A}. \end{aligned} \end{equation}

Lloss​=LJ​+μ∗LA​.​​​Network Architecture: Our self-supervised method is based on the ResNet-50 [51] following the same setting as the downstream tasks. At the last residual block in ResNet- 50, we apply an adaptive pooling on each embedding. Then, the embedding is flattened to a vector, and a fully connected layer reduces the embedding to 128 dimensions as the same setting in previous work [43] [28]. Then the embedding is split into learning the jigsaw-invariant discrimination task and auto-encoding reconstruction task. A decoder with transposed convolution is applied to up-sample embedding, in order to reconstruct the original input size.Implementation Details: The whole model is built on Py-Torch [49] with an NVIDIA RTX 3080 10 GB GPU in all ourexperiments. The melanoma images will resize to 224×224. In order to enhance the robust and generalized ability of the model, we implement data augmentation such as random horizontal flipping, color-jitter, and random vertical flipping during the training. We set λ = 0.5, τ = 0.5, |DN| is set to 5000. The learning rate is initialized to 0.001, we apply SGD optimizer and set moment as 0.9, and we also set decay in proportion to 0.1 for 100, 200, and 300 epochs with the warmup strategy. Based on these training tricks, the related parameters of the pre-training method can better adapt to the ISIC dataset to further raise the downstream segmentation accuracy. 代码如下(示例):

四、Experiments and Analysis

4.1 实验数据集

为了在没有人类注释的情况下学习丰富的先验知识,我们在公共皮肤损伤数据集(即ISIC 2020[53])上预训练了我们的方法。据我们所知,该数据集是皮肤镜下皮肤损伤疾病的最大公共数据集。为了评估我们的方法的有效性,我们执行了黑色素瘤分割任务,以在ISIC 2017上的公共皮肤损伤数据集上对黑色素瘤进行分类。此外,我们提出了少镜头ISIC数据集和鲁棒性ISIC,分别用于探索预训练模型,以提高少镜头学习和鲁棒性。下面,我们具体展开介绍上述数据集。

ISIC 2020 Pre-trained Dataset: ISIC 2020预训练数据集:ISIC 2020数据集[53]包含33126张具有正常和异常分类注释的JPEG图像。ISIC 2020包含了最大的可公开获取的皮肤损伤质量控制皮肤镜图像集。所有图像首先调整为360×360像素,因为ISIC 2020图像的大小范围为2848×4288至542×718像素。在自我监督的预训练阶段,我们使用所有数据集,没有任何标签信息。ISIC 2017 Segmentation Dataset: ISIC 2017数据集[52]包含2750张带有掩码注释的JPEG图像,所有图像大小调整为360×360,以及ISIC 2020数据集。据我们所知,只有ISIC 2017数据集公开了测试数据集(ISIC 2018和2019测试场真相不可用)。训练集、验证集和测试集分别具有2000、150和600个图像。注意,此数据集用于下游黑色素瘤分割任务。Few-Shot ISIC Dataset and Robustness ISIC Dataset: 为了探索预训练的模型是否提高了少镜头学习和下游分割任务的鲁棒性,我们提出了少镜头ISIC和鲁棒性ISIC数据集。对于FewShot学习数据集,验证和测试集与ISIC 2017数据集相同,但是,我们会将训练集减少到1%到10%,以在现实世界中激发很少的镜头学习。对于鲁棒性ISIC数据集,训练集和验证集与ISIC 2017数据集相同,但我们选择了15种以上现实应用中常见的噪声来验证我们的测试集方法的鲁棒性,包括噪声、模糊、雾、添加元素和Jpeg压缩。

4.2 Comparison with State-of-the-art Methods

为了评估通过自监督方法学习的特征的质量,学习的特征用作预训练模型,转移到黑色素瘤分割下游任务。我们使用ISIC 2017.我们排除了ISIC 2018和ISIC 2019数据集,因为给定网站上没有测试数据集和测试集。我们将其与最先进的自我监督方法进行了比较,如Jigsaw[16]、SimCLR[29]、MoCov2[28]、BYOL[43]和β-VAE[44]。Jigsaw[16]是一种自我监督的学习,即恢复图像的混乱拼图的位置。βVAE[44]假设数据是从未观察到的表示生成的样本。MoCov2[28]和SimCLR[29]是具有4096和2048个负对的对比学习方法的经典实例。BYOL[43]是一种全新的无负对对比学习方法。我们下载他们发布的预训练权重,或在ISIC数据集上使用发布的代码运行它们。此外,我们比较了监督模型[24],使用了120万张带有标签的自然图像。随机权重表示模型权重是随机初始化的。实验结果如TABLE I 所示

4.3 Comparison on the Few-Shot Learning ISIC

评估预训练特征在少镜头状态下对黑色素瘤分割任务的性能,这是医学图像的局限性之一。我们使用少量的ISIC数据集作为目标数据集,使用PSP Net和U-Net作为分割框架来验证这一论点。我们在少镜头ISIC数据集上比较了设计的JIANet,其优于其他先进方法的优越性能证明了在少镜头情况下的有效性。注意,1%的训练样本表示分割框架使用20个图像来训练具有下游任务注释的模型。特别是,为了防止过度拟合,批次大小设置为2,并且所有模型都已在目标数据集上进行了15个时期的微调,其他设置分别如第IV.A节所述。首先通过随机抽样下游任务训练样本,选取包含训练样本比例分别为1%、2%、3%,4%、5%…6%、8%和10%不同比例的子训练集作为小样本数据集,通过自监督训练海量的无标注皮肤镜图像得到皮肤镜图像先验知识,并通过迁移学习导入下游任务,缓解下游任务训练数据集较少的问题,提升病灶分割模型的小样本学习性能。检测结果如下图所示:

4.4 Comparison on the Robustness ISIC

此外,我们还评估了预训练特征在干扰状态下的表现,我们使用第四节a中介绍的RobustnessISIC数据集作为目标数据集来评估损坏图像方法的鲁棒性。通过使用imgaug数据增强,我们模拟了真实世界中图像损坏的各种情况,包括各种噪声和模糊,集合中的颜色变化,数据丢失等。这些损坏的图像增强的更多细节可以在website4上找到。为了进行评估,我们在两种分割方法上对所有预训练的模型进行了25个epoch的微调,实验结果如下图所示。

4.5 消融实验

Effects of Each Individual Task:

我们的方法是low and mid level features 学习的协同预训练方法通过制定两个任务的特点。因此,我们分析实例识别和自动编码重构的效果,实验结果如下图所示:

Effect of the number of patches and the negative sample

我们进行额外的拼图变换中不同数量补丁的实验。输入补丁大小的数量分别为4、9、16,分别。下游任务的表现报告了ISIC 2017的精度。我们观察这9个补丁可以更好地缓解底层图像级别信息缺乏和冗余。因为4个补丁大小是否过于简单而无法利用更详细的上下文语义信息和16个补丁大小太复杂,无法学习。结果表明,9种拼图均能有效改善下游细分任务的执行。我们还研究了负样本数量的影响。我们测量下游黑色素瘤分割任务的Dice系数在一个预训练的模型上,由JIANet生产的不同数量的负样本。结果如图10所示。由此我们可以看到,随着负样本的增加,在广义上的表现,这证实了它对下游任务有积极的影响。

精彩文章

评论可见,请评论后查看内容,谢谢!!!
 您阅读本篇文章共花了: