具有Wiener和Poisson噪声的随机马尔可夫跳跃系统的最优控制:两种强化学习方法

基于Wiener和Poisson噪声的随机Markov跳跃系统的最优控制:两种强化学习方法

学术背景

在现代控制理论中,最优控制是一个非常重要的研究领域,其目标是在各种约束条件下为动态系统设计一个最优控制策略,以最小化给定的成本函数。对于随机系统,传统的最优控制方法通常需要系统的完整模型信息,这在实际应用中存在很大的局限性。近年来,强化学习(Reinforcement Learning, RL)作为一种无需系统模型的方法,逐渐成为解决最优控制问题的重要工具。RL通过直接从数据中学习,能够获得最优值函数和最优策略,并且通过策略迭代(Policy Iteration)方法可以不断改进性能。

随机Markov跳跃系统(Stochastic Markovian Jump Systems, SMJS)是一类重要的随机系统模型,广泛应用于金融、工程等领域。然而,SMJS通常受到多种噪声的影响,尤其是Wiener噪声和Poisson噪声。Wiener噪声通常用于模拟连续噪声,而Poisson噪声则用于模拟突发性事件(如自然灾害、机器故障等)。由于这两种噪声的复杂性,传统的控制方法难以有效处理。因此,研究如何在Wiener和Poisson噪声的影响下设计最优控制策略,具有重要的理论和实际意义。

本文由Zhiguo Yan、Tingkun Sun和Guolin Hu共同撰写,发表于2024年12月的《IEEE Transactions on Artificial Intelligence》期刊。文章提出了两种新的策略迭代算法,用于解决带有Wiener和Poisson噪声的SMJS的最优控制问题,并通过数值实验验证了算法的有效性和收敛性。

研究内容

研究流程

本文的研究流程主要包括以下几个步骤:

  1. 问题定义与系统建模:首先,文章定义了带有Wiener和Poisson噪声的SMJS模型,并给出了系统的状态方程和成本函数。系统的状态方程如下:

[ dx(t) = [A_1(\delta_t)x(t) + B_1(\delta_t)u(t)]dt + [A_2(\delta_t)x(t) + B_2(\delta_t)u(t)]dw(t) + [A_3(\delta_t)x(t) + B_3(\delta_t)u(t)]dp(t) ]

其中,(x(t))是系统状态,(u(t))是控制输入,(w(t))是Wiener过程,(p(t))是Poisson过程,(\delta_t)是Markov跳跃过程。

  1. 策略迭代算法的设计:文章提出了两种新的策略迭代算法,分别基于积分强化学习(Integral Reinforcement Learning, IRL)和子系统变换技术(Subsystems Transformation Technique, ST)。这两种算法的核心思想是通过迭代更新策略和值函数,逐步逼近最优控制策略,而无需直接求解复杂的随机耦合代数Riccati方程(Stochastic Coupled Algebraic Riccati Equation, SCARE)。

    • 算法1:基于IRL和ST技术的策略迭代算法。该算法通过迭代更新策略和值函数,逐步逼近最优解。算法的收敛性得到了严格证明。
    • 算法2:一种改进的策略迭代算法,该算法不依赖于Poisson跳跃强度(\lambda),并且以灵活的方式进行策略改进,仅依赖于系统的状态轨迹信息。
  2. 数值实验与验证:文章通过数值实验验证了所提出算法的有效性和收敛性。实验结果表明,两种算法均能够有效求解SMJS的最优控制问题,并且在不同的Poisson跳跃强度(\lambda)下表现出良好的鲁棒性。

主要结果

  1. 算法1的结果:通过算法1,文章得到了系统的最优控制策略和值函数。实验结果表明,算法1能够有效逼近最优解,并且在不同(\lambda)值下表现出良好的收敛性。

  2. 算法2的结果:算法2同样表现出良好的收敛性,并且不依赖于(\lambda)的变化。实验结果表明,算法2能够在不同的(\lambda)值下有效求解最优控制问题。

  3. Poisson跳跃强度(\lambda)的影响:文章还研究了(\lambda)对算法收敛性和方程误差的影响。实验结果表明,随着(\lambda)的增加,算法的收敛精度会有所下降,但算法仍然能够在较大的(\lambda)范围内有效工作。

结论

本文研究了带有Wiener和Poisson噪声的SMJS的最优控制问题,提出了两种新的策略迭代算法。这两种算法无需直接求解复杂的SCARE方程,仅通过系统的状态轨迹信息即可获得最优解。实验结果表明,所提出的算法在不同(\lambda)值下均表现出良好的收敛性和鲁棒性。本文的研究成果可以扩展到其他系统模型,如均值场随机系统模型。

研究亮点

  1. 复杂噪声模型的处理:本文首次将Wiener和Poisson噪声同时引入SMJS的最优控制问题中,提出了适用于复杂噪声环境的策略迭代算法。

  2. 无需模型信息:所提出的算法无需系统的完整模型信息,仅通过状态轨迹信息即可获得最优解,具有较高的实际应用价值。

  3. 灵活的算法设计:算法2以灵活的方式进行策略改进,不依赖于Poisson跳跃强度(\lambda),适用于更广泛的应用场景。

研究意义与价值

本文的研究具有重要的理论和实际意义。在理论方面,本文提出的策略迭代算法为复杂噪声环境下的最优控制问题提供了新的解决方案,丰富了强化学习在控制理论中的应用。在实际应用方面,本文的算法可以应用于金融市场的风险控制、工程系统的故障诊断等领域,具有广泛的应用前景。

本文通过创新的算法设计和严格的实验验证,为带有Wiener和Poisson噪声的SMJS的最优控制问题提供了有效的解决方案,具有重要的学术价值和实际应用价值。