非対称制約ゼロサムゲームのためのニューラルクリティック技術を統合した高度な最適追跡

学術報告:先進最適追跡と神経ネットワーク評価技術の統合による非対称制約ゼロサムゲームの研究

背景と研究課題

現代の制御分野において、ゲーム理論は、少なくとも二人のプレイヤーの相互決定問題を含む、知的意思決定者間の競争と協力を研究する数学モデルである。近年、微分ゲームは制御分野でますます注目を集めている。複雑な外乱システムの最適制御問題に直面する際、通常これをゼロサムゲーム(Zero-Sum Game, ZSG)と見なす。システムの制御問題が異なる制御戦略を含み、外乱がない場合、非ゼロサムゲーム(Non-ZSG)と呼ばれる。しかし、実際のシステムには様々な外乱が存在するため、外乱がシステム性能に与える影響を軽減するために、ZSG問題をさらに考慮することが非常に重要である。

特に連続時間(Continuous-Time, CT)非線形システムでは、従来の動的計画法は非常に有用であるが、非線形最適制御問題を解決する際には、次元の呪い(Curse of Dimensionality)のために適用が難しい。これを解決するために、Werbosは1974年に適応動的計画法(Adaptive Dynamic Programming, ADP)を提案した。これは動的計画法、神経ネットワーク、および強化学習に基づいており、高効率かつ強力な知的最適化ツールである。したがって、本論文では、神経ネットワーク評価技術、すなわちADPを用いて、CT非線形システムにおける非対称制約下のゼロサムゲームの追跡制御問題を研究する。

論文出典と著者情報

この研究論文「Advanced optimal tracking integrating a neural critic technique for asymmetric constrained zero-sum games」は、北京工業大学情報技術学院のMenghua Li、Ding Wang、Jin Ren、およびJunfei Qiaoによって執筆されており、北京計算知能および知的システム研究所、北京人工知能研究院、および北京智慧環境保護研究所に所属している。この論文は2024年5月15日にNeural Networks誌にオンラインで発表される予定である。

作業プロセス

まず、本研究はCT非線形複数プレイヤーゼロサムゲームの追跡制御問題を解決するための改良アルゴリズムを提案する。研究では、新しい非二次関数を設計し、非対称制約問題を解決し、制御行列に対する厳しい要求を減少させた。さらに、最適制御、最悪の外乱、および追跡Hamilton-Jacobi-Isaacs(HJI)方程式を導出した。次に、最適コスト関数を推定するための神経評価ネットワークを構築し、それにより最適制御と最悪の外乱の近似を得た。最後に、Lyapunov方法に基づき、追跡誤差と評価ネットワークの重み推定誤差の安定性を分析した。

研究ステップ

  1. 非線形システムモデルの構築: システムの状態変数、制御入力および外部外乱を設定。参照システムが生成する期待される軌跡を定義し、追跡誤差ベクトルを導入してシステムの追跡誤差動態を記述する。

  2. HJI方程式の解法: Bellman最適性原理に基づき、システムの追跡HJI方程式を導出する。定常原則を利用して、最適制御と最悪の外乱を得る。

  3. 神経ネットワーク評価技術による追跡制御の実現: 高次元ではHJI方程式の解法が困難であるため、本論文は神経ネットワーク評価技術を使用する。評価ネットワークを構築し、重み更新ルールを通じて最適制御と最悪の外乱の近似を得る。

  4. 安定性解析: Lyapunov関数候補法を利用して、システムが統一された最終的に有界(UUB)であることを証明する。

  5. シミュレーション例の検証: 倒立振り子システムと四人プレイヤーCT非線形システムの二つの例を通じて、提案された追跡制御方式の有効性を検証する。

研究結果

重みの訓練およびシミュレーションを通じて、本研究は一連の重要な結果を得た:

  1. 重みの収束: 評価ネットワークの訓練を通じて、重みは一定時間内に収束し、システムの近似最適制御がシステムの状態を正確に反映することを保証する。

  2. 追跡誤差の収束: シミュレーション実験では、追跡誤差が速やかにゼロに収束することが示され、異なる外乱環境において提案手法の有効性が確認された。

  3. 外乱抵抗能力: システムは優れた外乱抵抗能力を示し、干渉信号が導入された場合でも、追跡誤差は速やかに回復する。

結論と意義

本論文は、神経ネットワーク評価技術を用いて、CT非線形非対称制約ゼロサムゲームの追跡制御問題を効果的に解決する方法を提案する。この方法は制御行列の厳しい要求を緩和することでアルゴリズムの適用性を拡大し、参照軌跡が結果的にゼロに収束する必要がないにもかかわらず効果的な制御を行うことができる。研究は理論的に新しい方法を提供するだけでなく、実際の応用におけるより広範な状況にも貢献する。

研究のハイライト

  1. 革新的なアルゴリズム: 提案されたアルゴリズムは、従来の制御行列に関する制約を緩和し、より広範な応用場面で効果的に動作することができる。

  2. 神経ネットワーク評価技術の応用: 神経ネットワークを介して最適制御を近似し、次元の呪いに対処し、高効率の制御戦略を実現する。

  3. 多様な応用場面の検証: 倒立振り子システムと四人プレイヤーシステムのシミュレーション例により、アルゴリズムの広範な適用性と有効性が確認された。