ゼロサムゲームのための割引安定適応批評設計とその応用検証

ディスカウント価値反復に基づく適応的批評設計のゼロサムゲームへの応用と検証 研究背景 制御分野において、最適制御(Optimal Control)は重要な研究テーマであり、システムの性能を最適化するための制御システムの設計と分析を目的としています。システムの複雑さが増すにつれて、伝統的なハミルトン-ヤコビ-ベルマン方程式(Hamilton-Jacobi-Bellman, HJB)に基づく最適制御手法は「次元の呪い」(Curse of Dimensionality)という課題に直面しています。この課題に対処するため、研究者たちは適応的動的計画法(Adaptive Dynamic Programming, ADP)を提案し、強化学習(Reinforcement Learning)や関数近似(Fu...

WienerおよびPoissonノイズを伴う確率的マルコフジャンプシステムの最適制御:2つの強化学習アプローチ

WienerおよびPoissonノイズを含む確率Markovジャンプシステムの最適制御:2つの強化学習アプローチ 学術的背景 現代の制御理論において、最適制御は非常に重要な研究領域の一つであり、その目標は、動的システムに対して費用関数を最小化する最適制御戦略を設計することです。確率システムに関して、従来の最適制御手法は通常、システムモデルの完全な情報を必要としますが、この点で現実の適用において大きな限界があります。近年、モデルに依存しない手法としての強化学習(Reinforcement Learning, RL)が、最適制御問題を解決する重要なツールとして注目されています。RLはデータから直接学習することで、最適値関数と最適ポリシーを取得し、ポリシーイテレーション(Policy Iterat...