基于折扣值迭代的零和博弈自适应评判设计及其应用验证

基于折扣价值迭代的自适应评判设计在零和游戏中的应用与验证 研究背景 在控制领域,最优控制(Optimal Control)是一个核心研究方向,旨在设计和分析控制系统以优化系统性能。随着系统复杂度的增加,传统的基于哈密顿-雅可比-贝尔曼方程(Hamilton-Jacobi-Bellman, HJB)的最优控制方法面临“维度灾难”(Curse of Dimensionality)问题。为了应对这一挑战,研究者们提出了自适应动态规划(Adaptive Dynamic Programming, ADP)方法,结合强化学习(Reinforcement Learning)和函数逼近(Function Approximation)等技术,有效提升了复杂系统的控制能力。 零和游戏(Zero-Sum Game...

具有Wiener和Poisson噪声的随机马尔可夫跳跃系统的最优控制:两种强化学习方法

基于Wiener和Poisson噪声的随机Markov跳跃系统的最优控制:两种强化学习方法 学术背景 在现代控制理论中,最优控制是一个非常重要的研究领域,其目标是在各种约束条件下为动态系统设计一个最优控制策略,以最小化给定的成本函数。对于随机系统,传统的最优控制方法通常需要系统的完整模型信息,这在实际应用中存在很大的局限性。近年来,强化学习(Reinforcement Learning, RL)作为一种无需系统模型的方法,逐渐成为解决最优控制问题的重要工具。RL通过直接从数据中学习,能够获得最优值函数和最优策略,并且通过策略迭代(Policy Iteration)方法可以不断改进性能。 随机Markov跳跃系统(Stochastic Markovian Jump Systems, SMJS)...