InA: 在预训练语言模型上的抑制自适应方法
InA: 在预训练语言模型上的抑制自适应方法
预训练语言模型(Language Models, LMs)已经在自然语言处理(Natural Language Processing, NLP)任务中取得了显著的效果。然而,传统的微调方法存在冗余参数的问题,影响了效率和效果。为了应对这一挑战,本文提出了一种称为抑制自适应(Inhibition Adaptation, INA)的微调方法,用以减少添加的可调权重,并适当地再权重来自预训练语言模型的知识。
研究背景和问题
当前,微调预训练语言模型是一种常见的解决NLP下游任务的方法。然而,经典的微调方法需要更新所有的模型参数,这会导致冗余参数问题,尤其是当应用于新的下游任务时。冗余参数不仅影响模型的效率,还会阻碍模型性能的提升。为了解决这一问题,已有研究尝试仅调整特定的向量来学习附加参数,并保持大部分预训练参数不变。然而,这种方法仍然存在信息传递中的冗余问题。因此,本研究提出了INA方法,以在更小的可调参数下实现更高效的微调。
研究来源
本文由Cheng Kang, Jindrich Prokop, Lei Tong, Huiyu Zhou, Yong Hu和Daniel Novak等学者撰写,分别来自捷克技术大学、莱斯特大学和香港大学。论文发表在Neural Networks期刊上,接收时间为2024年5月23日。
研究方法和流程
1. 研究流程
a. 插入可训练向量:在每个Transformer注意力架构中插入一个小的可训练向量。 b. 设置阈值:直接消除不相关的知识,通过设置阈值来抑制传递的无关信息。
2. 研究对象
研究对象涉及BERT-large,RoBERTa-large和DeBERTa-large三种预训练语言模型,主要应用于文本分类和问答任务。实验在GLUE基准、SQuAD v1.1及SQuAD v2.0数据集上进行评估。
3. 实验方法
主要涉及以下几个步骤和技术:
- 抑制机制:引入抑制机制,通过设置特定阈值来控制信息传递。
- 激活函数的选择:选择合适的激活函数(如GELU或LeakyReLU),以实现最佳的抑制效果。
- 低秩分解和信息压缩:类似LoRA方法,通过低秩分解来将信息压缩,使模型能在减少参数的同时保持性能。
主要结果
1. GLUE基准测试结果
在GLUE基准测试中,INA在许多任务上表现优异,特别是在CoLA、SST-2、MRPC等任务上表现显著。具体结果列出如下(见表3):
- BERT-large使用INA微调后,在CoLA任务上取得了65.9的MCC分数,超越了传统的微调方法。
- RoBERTa-large使用INA微调后,在多个任务上表现出色,尤其在CoLA和MRPC任务上表现突出。
2. SQuAD问答任务
在SQuAD v1.1和v2.0上,使用INA微调的模型在准确率和召回率上均表现出色。具体数据如下(见表4):
- BERT-large在SQuAD v1.1上的F1/EM成绩达到91.3⁄84.6,略优于传统方法。
- RoBERTa-large在SQuAD v2.0上的F1/EM成绩也有显著提升。
结论和意义
本研究通过引入抑制机制有效减少了微调过程中传递的冗余信息,从而提高了模型在下游任务中的表现。主要结论如下:
- 科学价值:INA方法通过适当的抑制机制和低秩分解方法,为微调预训练语言模型提供了更高效的途径。这不仅减少了所需的可调参数,还抑制了无关信息的传递。
- 应用价值:INA在多个NLP任务中的表现突出了其实际应用中的潜力,为进一步提升预训练语言模型的微调效果提供了有力支持。
研究亮点
- 创新性:提议的INA方法引入了抑制机制,这在现有的微调方法中是较为新颖且有效的。
- 实用性:通过减少冗余参数和有效抑制无关信息,INA提高了模型的适应性和性能。
- 广泛适用性:INA在不同的语言模型和任务中均表现出优异的性能,特别是在文本分类和问答任务上。
其他有价值的信息
在选择激活函数和设置适当的阈值时,GELU和LeakyReLU由于其较短的负尾巴而表现出更好的效果。同时,INA在处理下游任务时,能够有效抑制低相关或无关的信息,使模型更集中于任务相关的特性。
未来工作
未来的研究将集中在探索INA在其他NLP任务中的应用,以及如何进一步优化抑制机制的参数设置,以实现更好的微调效果。此外,针对像SWAG这样的多选生成功能任务,进一步的实验将帮助理解为何INA在部分任务上没有表现出显著的改进。 本论文总结了INA在预训练语言模型微调中的应用及其显著效果,展示了其在减少冗余参数和提高任务性能方面的潜力。