基于折扣值迭代的零和博弈自适应评判设计及其应用验证
基于折扣价值迭代的自适应评判设计在零和游戏中的应用与验证 研究背景 在控制领域,最优控制(Optimal Control)是一个核心研究方向,旨在设计和分析控制系统以优化系统性能。随着系统复杂度的增加,传统的基于哈密顿-雅可比-贝尔曼方程(Hamilton-Jacobi-Bellman, HJB)的最优控制方法面临“维度灾难”(Curse of Dimensionality)问题。为了应对这一挑战,研究者们提出了自适应动态规划(Adaptive Dynamic Programming, ADP)方法,结合强化学习(Reinforcement Learning)和函数逼近(Function Approximation)等技术,有效提升了复杂系统的控制能力。 零和游戏(Zero-Sum Game...