先进最优跟踪结合神经网络评价技术用于非对称约束零和博弈

学术报告:先进最优跟踪结合神经网络评价技术用于非对称约束零和博弈

背景与研究问题

在现代控制领域,博弈论是研究智能决策者之间竞争与合作的数学模型,其中涉及至少两个玩家的互动决策问题。近年来,微分博弈在控制领域引起了越来越多的关注。当我们面对复杂受扰动系统的最优控制问题时,通常将其视为零和博弈(Zero-Sum Game, ZSG)。如果某系统的控制问题涉及多种控制策略且无扰动时,则被称为非零和博弈(Non-ZSG)。然而,由于真实系统中常存在各种扰动,因此进一步考虑ZSG问题以减轻扰动对系统性能的影响非常重要。

尤其在连续时间(Continuous-Time, CT)非线性系统中,传统动态规划方法尽管非常有价值,但在解决非线性最优控制问题时,常因为维数灾难(Curse of Dimensionality)而难以应用。为解决这一难题,Werbos在1974年提出了自适应动态规划(Adaptive Dynamic Programming, ADP),它基于动态规划、神经网络和强化学习,是一种高效且强大的智能优化工具。因此,本文利用神经网络评论(Critic)技术,即ADP,研究CT非线性系统在非对称约束条件下的零和博弈的跟踪控制问题。

论文来源及作者信息

此研究论文《Advanced optimal tracking integrating a neural critic technique for asymmetric constrained zero-sum games》由北京工业大学信息技术学院的Menghua Li、Ding Wang、Jin Ren和Junfei Qiao撰写,同时隶属于北京计算智能与智能系统实验室、北京人工智能研究院和北京智慧环境保护实验室。该论文将于2024年5月15日在线发表在Neural Networks期刊上。

工作流程

首先,该研究提出了一种改进算法,以解决CT非线性多玩家零和博弈中的跟踪控制问题。研究设计了一个新的非二次函数,解决了非对称约束问题,减少了对控制矩阵严格的要求。进一步推导了最优控制、最差扰动以及跟踪Hamilton-Jacobi-Isaacs(HJI)方程。接着,构建了一个神经评价网络,用于估计最优成本函数,从而得到最优控制和最差扰动的近似。最后,基于Lyapunov方法,分析了跟踪误差和评论网络的权值估计误差的稳定性。

研究步骤

  1. 构建非线性系统模型: 设定系统的状态变量、控制输入和外部扰动。定义参考系统生成的期望轨迹,通过引入跟踪误差向量,描述系统的跟踪误差动态。

  2. 求解HJI方程: 根据Bellman最优性原理,推导系统的跟踪HJI方程。利用站原则,获得最优控制和最差扰动。

  3. 神经网络评论技术实现跟踪控制: 由于HJI方程在高维度下难以求解,本文选择使用神经网络评论技术。建立评估网络,通过权值更新规则,获得最优控制和最差扰动的近似。

  4. 稳定性分析: 利用Lyapunov函数候选方法,证明系统在统一最终有界(UUB)意义上是稳定的。

  5. 仿真实例验证: 通过倒立摆系统和四玩家CT非线性系统两个实例验证所提出跟踪控制方案的有效性。

研究结果

经过权值的训练和仿真验证,本研究取得了一系列重要结果:

  1. 权值收敛: 通过对评估网络的训练,权值在一段时间内收敛,确保了系统的近似最优控制能够正确反映系统状态。

  2. 跟踪误差收敛: 仿真实验显示,跟踪误差迅速收敛到零,验证了所提方法在不同扰动环境下的有效性。

  3. 扰动抵抗能力: 系统展示了较强的抗扰动能力,即便在引入干扰信号后,跟踪误差仍能快速恢复。

结论与意义

本文通过神经网络评论技术,提出了一种有效解决CT非线性非对称约束零和博弈的跟踪控制问题的方法。该方法通过放松对控制矩阵的严格要求,扩展了算法的适用性,且在不需要参考轨迹最终收敛到零的情况下依旧能够进行有效控制。研究不仅在理论上提供了新方法,还有助于实际应用中更广泛的情况。

研究亮点

  1. 创新算法: 提出的算法相比以往在控制矩阵限制上的放松,能在更广泛的应用场合有效工作。

  2. 神经网络评论技术应用: 通过神经网络对最优控制进行近似,更好地应对维数灾难,实现高效的控制策略。

  3. 多种应用场景验证: 倒立摆系统与四玩家系统的仿真实例验证了算法的广泛适用性与有效性。