マスク画像モデリング事前学習による強力な軽量ビジョントランスフォーマーの探索に関する実験的研究
軽量級ビジョンTransformerの強力な探索のためのマスク付き画像モデリング事前学習に関する実験的研究 学術的背景 近年、自己教師あり学習(self-supervised learning, SSL)はコンピュータビジョン分野で顕著な進展を遂げています。特に、マスク付き画像モデリング(masked image modeling, MIM)事前学習法は大規模なビジョンTransformer(vision transformers, ViTs)への応用において成功し、これらのモデルに基づく下流タスクのパフォーマンスが大幅に向上しました。しかし、既存の研究は主に大規模ViTsに焦点を当てており、軽量級ViTsに対する事前学習方法とその効果についての研究は比較的少ないです。さらに、多くの研究は複...