Introduction

problem

深度学习识别任务依赖于大量可靠标记的数据集,但通过爬虫等收集到的数据不可避免地会有噪声标签。这些标签不适合直接用来训练,因为复杂的模型容易记住噪声标签,导致泛化能力下降

解决

1.经典的LNL方法

识别噪声样本,减小它们对参数更新的影响(舍弃或者降低权重或半监督学习)

但对于极端复杂的情形,这种方法会因为没有足够的干净数据,训练不出一个判别器

2.标签纠正(增加干净的训练样本)

meta-learning based approaches (resorting to a small clean validation set and taking noisy labels as hyper-parameters)

涉及模型权重和超参数的嵌套双层优化问题,在计算上不可行

作为折中,两者交替更新,就形成了耦合的方法

耦合存在的问题

交替更新在较大的空间上会产生次优解问题

设计实验研究交替更新(近似)对结果产生的影响

方法:MLC and MSLC  on CIFAR-10 (深度模型 + 元标签纠正网络)

实验结果1:耦合优化阻碍了校正标签的质量

将耦合纠正器和它极度解耦的变体进行对比

评价方法:纠正标签的正确率(还会反向影响表示学习)

实验结果2:耦合优化阻碍了表示能力

评价方法:提取特征的线性探针的准确度

借助预训练好的backbone和自监督学习作为初始化,以更好地研究对于表示学习的影响

结果:耦合的提升比解耦的提升小

提出解耦的方法

将元标签学习从表示学习中提取出来,设计一个简单的元标签纯化器

DMLP(meta-learning based)

为了避免用耦合的方法解决双层优化,DMLP将其解耦为自监督表示学习和线性元学习器

线性元学习器:两个相互加强的校正过程

内在主校正IPC 和 外在的辅助校正EAC

IPC:以稳定的速度净化标签

EAC:使用IPC中更新的标签训练,加速净化的进程

本文的主要贡献

1.用解耦的方法解决双层优化

2.元标签净化器,两个校正器:IPC and EAC

Related Works

1.Noisy sample detection

2.Label correction

估计噪声转移矩阵

问题:通常假设噪声类型与类别相关,不适合现实生活中的噪声

利用网络预测

问题:过度参数化的骨干网络在噪声存在下训练会波动

无监督的对比学习

meta-learning based method

耦合的方法

DMLP

 

Method

MLC (Meta Label Correction)

我们构建一个标签校正网络(LCN)作为元模型。LCN被参数化为一个具有参数,的函数,以纠正实例特征h(x)的弱标签y'为一个更准确的标签y。同时,我们旨在训练并用于训练后预测的主要模型,被实例化为另一个参数为w的函数 。

这两个模型通过双级优化框架连接在一起:

双层优化问题:统一GAN,演员-评论员与元学习方法

双层优化如何求解?

一步SGD更新

像许多其他涉及双层优化的工作一样,问题(1)的精确解需要在α更新时求解最优的。我们没有求解每个α的的最优值,而是采用了一步的SGD更新来近似给定α的最优主模型,其中

设上层目标函数为,那么优化问题就变为

k步超前SGD更新

感觉类似于Reptile

可以改进的地方

两个损失函数都不是解析的,并且涉及到DNN复杂的前向传播,求解嵌套优化目标在计算上是昂贵的由于耦合,不能保证一步更新时最优的

DMLP 

1.将表示学习从噪声标签校正中分离

 G是一个预训练的特征提取器,这些提取的特征被用于对比自监督学习框架中,在没有噪声标签的情况下作为预训练更新参数。这样,得到一个对于噪声不敏感的描述器,且在高维空间中仍然可分。

这样,损失函数就是可解析的简单的风险估计函数,且是非嵌套的

2.IPC and EAC

IPC (Intrinsic Primary Correction)

作用:以稳定缓慢的速度进行全局的标签纯化

由于特征描述具有代表性和高度可分性,我们假定存在一个简单的线性估计变换,能够准确运用岭回归进行类别分布预测。

是缩放因子。于是我们得到在上的,再通过线性回归在验证集上进行预测

其中H ( · )表示输入分布的熵作为正则化项,以锐化预测的标签分布

EAC

作用:加速标签校正的过程

用IPC校正以后的标签训练一个伴随的线性分类器(对于噪声标签有固有的鲁棒性,可以很快达到高正确率)

的更新是阶段性的,每T次迭代进行动量更新(EMA)

是动量

从全局意义上讲,经过T次迭代训练后,EAC可以通过模仿IPC逐步更新的标签,快速实现局部最优的标签估计,从而通过提供更干净的训练标签,反向促进IPC的标签校正。

3.DMLP的应用

Naive classification network with DMLP (DMLP-Naive)

用DMLP校正后的标签重新训练一个分类网络

LNL framework boosted by DMLP (e.g. DMLP-DivideMix)

用DMLP校正后的标签为训练样本,在现有LNL框架上继续校正标签

实验

在人造噪声的CIFAR-10/100和真实噪声的Clothing1M数据集上,设置对称噪声和非对称噪声(更接近现实世界),设置不同比例的噪声

1.与现有方法比较

CIFAR-10/100  对称噪声

DivideMix* vs DMLP-DvideMix

值得注意的是,直接使用验证数据来训练DivideMix (也就是说, DivideMix *)仅带来了微小改进,而当使用DMLP纯化的标签时,获得了显著的改进,这表明DMLP在使用验证集解决LNL问题方面是有效的

DivideMix vs DMLP-DvideMix

对于增强现有框架有效

CIFAR-10  非对称噪声

证明了DMLP在处理更难的语义相关噪声方面的能力,对不同噪声水平的鲁棒性

Clothing1M

结果表明,DMLP更适用于真实环境中的噪声

2.标签校正准确率

与MLC和MSLC在CIFAR-10上比较

3.DMLP的泛化能力

 值得注意的是,由于CDR高度依赖早期停止技术,在训练过程中存在严重的记忆效应,导致最佳结果与最终性能之间存在差异。说明DMLP输出的标签具有更好的抑制记忆效果的质量。也证明了DMLP能够增强现有的LNL框架。

消融实验

1.IPC和EAC的影响

方法:排除一个过程,利用另一个过程校正的标签训练DMLP-Naive

实验结果表明,EAC由于其固有的鲁棒性,在低噪声情况下表现良好,随着噪声比的增加,性能迅速下降 ;IPC对高水平噪声具有更强的鲁棒性,但由于其优化过程缓慢,与两者结合相比存在较大差距。

2.解耦的影响

耦合的MLC和MSLC,相同的自监督预训练权重

 实验结论:这种优越性主要归因于解耦而不是自监督预训练

3.不同特征表示对净化效果的影响

在DMLP的标签校正过程中,特征的质量起着至关重要的作用,因为学习到的特征的分布与高维空间中线性估计假设背后的合理性密切相关

预训练的ResNet-18/50 

实验结论:DMLP对输入特征的表征能力不是很敏感 

4.验证集的大小

 实验结论:DMLP的有效性在很大程度上不依赖于验证规模

5.极噪声环境下的性能

除了给定的干净验证集外,训练集中的所有标签都是不可靠的,将LNL问题转化为半监督学习问题。

将DMLP - Division Mix与一些先进的半监督学习算法进行比较

问题

双层优化中的leader和follower怎么确定?为什么是非嵌套的?如何理解meta-learning based

好文阅读

评论可见,请评论后查看内容,谢谢!!!
 您阅读本篇文章共花了: