デュアルプロンプトを用いたリハーサルベースの継続学習

学術的背景

機械学習とニューラルネットワークの分野において、継続学習(Continual Learning)は重要な研究テーマです。継続学習の目標は、モデルが一連のタスクにおいて新たな知識を継続的に学習しつつ、既に学習した古い知識を忘れないようにすることです。しかし、既存の継続学習手法は主にカタストロフィックフォゲッティング(Catastrophic Forgetting)という課題に直面しています。カタストロフィックフォゲッティングとは、モデルが新しいタスクを学習する際に、以前に学習した知識を急速に忘れてしまい、古いタスクの性能が大幅に低下する現象です。この問題は現実のアプリケーションにおいて特に深刻で、多くのタスクが変化する環境下で継続的に学習し適応する必要があるためです。

この問題を解決するために、研究者たちはさまざまな手法を提案してきました。その中でもリハーサルベースの手法(Rehearsal-based Methods)は一般的な解決策の一つです。この手法は、古いタスクの代表的なサンプルを保存し、新しいタスクを学習する際にこれらのサンプルを再生することで、古い知識を強化します。しかし、既存のリハーサル手法には2つの主要な問題があります:1)モデルが新しいタスクを学習する際にサンプル数が限られているため、汎化能力が弱いこと;2)知識蒸留(Knowledge Distillation)は古い知識を伝達できますが、過度の制約がモデルの新たな知識を学習する能力を制限する可能性があることです。

これらの問題を緩和するために、南京信息工程大学、南京林業大学、東南大学、および南京郵電大学の研究チームは、DUPTと呼ばれる二重プロンプトに基づく継続学習手法を提案しました。この手法は、入力感知プロンプト(Input-aware Prompt)とプロキシ特徴プロンプト(Proxy Feature Prompt)を導入し、入力と特徴の2つの側面からモデルの汎化能力と知識伝達効率を向上させます。

論文の出典

この論文は、Shengqin JiangDaolong ZhangFengna ChengXiaobo Lu、およびQingshan Liuによって共同執筆されました。著者らはそれぞれ南京信息工程大学計算機学院、南京林業大学機電工程学院、東南大学自動化学院、および南京郵電大学計算機学院に所属しています。論文は2025年にNeural Networks誌に掲載され、タイトルは《DUPT: Rehearsal-based Continual Learning with Dual Prompts》です。

研究のプロセス

1. 入力感知プロンプト(Input-aware Prompt)

継続学習のプロセスにおいて、新しいタスクのサンプル数は通常少なく、これがモデルの汎化能力を制限します。この問題を解決するため、DUPTは入力感知プロンプトを導入し、入力分布を動的に拡張することで、モデルが新しいタスクのサンプル特徴をより効果的に捉えることを支援します。

具体的には、入力感知プロンプトは以下の手順で生成されます: 1. 入力データの前処理:入力画像を16×16の解像度にダウンサンプリングし、計算量を削減します。 2. アテンションメカニズム:ダウンサンプリングされた画像を凍結されたアテンションモジュールに入力し、アテンションベクトルを生成します。 3. 重みの生成:アテンションベクトルを全結合層に通し、プロンプトプール内のプロンプト数と等しい重みベクトルを生成します。 4. プロンプトの生成:重みベクトルとプロンプトプール内のプロンプトを加重和し、最終的な入力感知プロンプトを生成します。

入力感知プロンプトの利点は、限られたプロンプトを使用して多様な入力分布を生成できるため、モデルの汎化能力を向上させることができる点です。

2. プロキシ特徴プロンプト(Proxy Feature Prompt)

継続学習において、古い知識の伝達は通常、知識蒸留によって実現されます。しかし、新旧モデルの特徴を直接揃えることは、モデルが新しい知識を学習する能力を制限する可能性があります。この問題を解決するため、DUPTはプロキシ特徴プロンプトを導入し、学習可能な中間特徴表現を構築することで、特徴間の衝突を緩和します。

具体的には、プロキシ特徴プロンプトの生成プロセスは以下の通りです: 1. プロンプトプールの初期化:固定数のプロンプトを含むプロンプトプールを初期化します。 2. 特徴抽出:プロンプトプール内のプロンプトをそれぞれ畳み込み層と全結合層に入力し、学習可能なプロンプトを生成します。 3. 知識蒸留:最適化目標関数を通じて、現在のモデルの特徴とプロキシ特徴プロンプトの差異を制約しつつ、プロキシ特徴プロンプトと古いモデルの特徴の一貫性を維持します。

プロキシ特徴プロンプトの利点は、新旧モデルの特徴を直接揃えることを避けることで、古い知識を保持しつつ、モデルが新しい知識を学習する能力を強化できる点です。

3. 最適化目標

DUPTの最適化目標は以下の部分から構成されます: 1. クロスエントロピー損失:現在のタスクのデータを最適化するために使用されます。 2. リハーサルクロスエントロピー損失:リハーサルバッファ内の古いタスクのデータを最適化するために使用されます。 3. リハーサルロジット蒸留損失:現在のモデルと古いモデルのリハーサルデータ上の出力差異を制約するために使用されます。 4. 特徴蒸留損失:現在のモデルの特徴とプロキシ特徴プロンプトの差異を制約するために使用されます。

これらの目標を共同で最適化することで、DUPTは継続学習プロセスにおいてモデルの安定性と可塑性を同時に強化することができます。

主な結果

DUPTは、CIFAR10、CIFAR100、およびTinyImageNetを含む複数のデータセットで実験を行いました。実験結果は、DUPTが継続学習タスクにおいて優れた性能を発揮し、特にバッファサイズが小さい場合に既存手法を大きく上回ることを示しています。

  1. CIFAR10データセット:バッファサイズが200の場合、DUPTはDER++の平均精度を4.92%向上させました。
  2. CIFAR100データセット:バッファサイズが500の場合、DUPTはDER++の平均精度を3.41%向上させました。
  3. TinyImageNetデータセット:バッファサイズが4000の場合、DUPTはDER-BFPの平均精度を0.82%向上させました。

さらに、DUPTは既存手法との互換性も示しました。最新のDER-BFP手法と組み合わせた場合、DUPTはCIFAR10およびCIFAR100データセットでそれぞれ1.30%および1.34%の性能向上を実現しました。

結論

DUPTは、入力感知プロンプトとプロキシ特徴プロンプトを導入することで、入力と特徴の2つの側面から継続学習モデルの汎化能力と知識伝達効率を強化しました。実験結果は、DUPTが複数のデータセットで優れた性能を発揮し、特にバッファサイズが小さい場合に既存手法を大きく上回ることを示しています。さらに、DUPTの互換性により、既存の継続学習手法とシームレスに統合し、性能をさらに向上させることができます。

研究のハイライト

  1. 二重プロンプトメカニズム:DUPTは入力感知プロンプトとプロキシ特徴プロンプトを通じて、入力と特徴の2つの側面からモデルの汎化能力と知識伝達効率を強化します。
  2. 顕著な性能向上:バッファサイズが小さい場合、DUPTは複数のデータセットで顕著な性能向上を実現しました。
  3. 高い互換性:DUPTは既存の継続学習手法とシームレスに統合し、性能をさらに向上させることができます。

今後の展望

DUPTは継続学習タスクにおいて優れた性能を発揮していますが、いくつかの課題が残されています。まず、バッファサイズが小さい場合、DUPTの性能はバッファサイズが大きい場合に比べてまだ劣っています。古い知識をより効果的に表現する方法は未解決の問題です。次に、DUPTはゼロから訓練されたモデルに依存しており、これらのモデルは小規模なデータセットで過学習しやすいです。今後の研究では、事前学習済みモデルを活用してこの問題を緩和する方法を探求することが考えられます。

DUPTは継続学習に対する効果的な解決策を提供し、重要な科学的価値と応用の可能性を持っています。