随着NLP预训练模型规模不断扩大,进行全量微调的计算成本越来越高。Adapter调参技术应运而生,可有效降低计算资源消耗,提高模型泛化能力。本文将简单介绍这一技术的优势及实现原理,让我们一起来看看Adapter从何而来及为何行之有效!

Adapter的由来

NLP预训练模型中参数越来越多,这给下游任务的微调带来了两大问题:

训练成本高昂:全量微调预训练模型需要大量算力容易过拟合:直接微调所有参数易导致对下游任务过拟合

Adapter技术正是为了解决上述问题而提出的。它在模型中添加了极少量新参数,仅调整这部分新参数以适应下游任务,既降低了训练成本,也增强了模型在不同任务间的泛化能力。

Adapter的技术原理

Adapter的核心思路是:在预训练模型的每个Transformer层内插入Task-Specific Parameters用于下游任务,而模型主体参数固定不变。

具体来说,对每个Transformer层,在多头注意力计算后和第二层前馈网络后分别插入两个Adapter模块。每个Adapter模块包含一个下投影层、一个上投影层和一个残差连接。

在训练下游任务时,仅对Adapter模块中的参数进行更新,预训练模型的参数固定住不变。这样就大大降低了训练成本,也避免了灾难性遗忘问题的发生。

Adapter的优势

相比全量微调,使用Adapter调参具有以下优势:

⚡️训练速度快:仅增加3.6%额外参数,计算量大幅下降泛化能力强:避免对单一任务过拟合可重用:新增任务仅需添加适应该任务的Adapter

Adapter调参技术为模型在不同下游任务间的迁移学习提供了有效、高效的新思路。相信随着研究的深入,Adapter必将在NLP领域得到越来越广泛的应用!

参考阅读

评论可见,请评论后查看内容,谢谢!!!
 您阅读本篇文章共花了: