通过掩码图像建模预训练探索轻量级视觉Transformer的实验研究
一种通过掩码图像建模预训练探索强轻量级视觉Transformer的实验研究 学术背景 近年来,自监督学习(self-supervised learning, SSL)在计算机视觉领域取得了显著进展。特别是掩码图像建模(masked image modeling, MIM)预训练方法在大规模视觉Transformer(vision transformers, ViTs)上的成功应用,使得基于这些模型的下游任务性能得到了极大提升。然而,现有的研究主要集中在大型ViTs上,对于轻量级ViTs的预训练方法及其效果的研究相对较少。此外,尽管许多研究致力于设计复杂的轻量级ViTs架构以提高性能,但很少有工作关注如何优化预训练策略来进一步提升现有轻量级模型的表现。本文旨在探讨MIM预训练能否同样有效应用于...