Seaformer++:モバイル視覚認識のためのスクイーズ強化軸変換器
SEAFormer++——モバイルビジョン認識のための効率的なTransformerアーキテクチャ 研究背景と問題提起 近年、コンピュータビジョン分野では、畳み込みニューラルネットワーク(CNN)からTransformerベースの手法への大きな変革が起こりました。しかし、Vision Transformerは多くのタスクで優れたグローバルコンテキストモデリング能力を示す一方で、その高い計算コストとメモリ要件により、特に高解像度画像を扱う場合、モバイルデバイスへの展開が困難です。低遅延と高効率を求めるモバイルデバイスに対応するため、研究者たちは局所注意機構、軸方向注意(Axial Attention)、動的グラフメッセージパッシングなどの軽量化手法を提案してきました。しかし、これらの方法でも高...