自适应采样人工实际控制在约束系统非零和博弈中的应用

自适应采样人工实际控制在约束系统非零和博弈中的应用

背景

在现代工业和科研领域中,智能技术和控制系统的迅速发展,使得传统的控制方法难以满足保证系统稳定性和最小化能耗的严格要求。实际系统通常非常复杂,至少包含两个控制单元,并存在组件之间错综复杂的竞争与合作关系。这种情况下,设计的控制方案不仅要考虑单个控制器的效益最大化,还要实现全局优化。这类问题通常被视为非零和博弈(Non-Zero-Sum Games,NZSG),在多物理输入约束条件下,处理系统耦合动态是一个重要的研究难题。

论文来源

本文题为《Adaptive Sampling Artificial-Actual Control for Non-Zero-Sum Games of Constrained Systems》由Lu Liu和Ruizhuo Song完成,两人均来自北京科技大学自动化与电子工程学院工业频谱成像工程研究中心。该论文于2024年将在《Neural Networks》期刊发表。论文的接收与修订日期分别为2023年11月7日和2024年4月21日,最终于2024年5月27日被接受。

研究内容

本文提出了一种自适应动态编程(Adaptive Dynamic Programming,ADP)方案,通过人工与实际系统交互优化控制策略,以应对约束输入下的非零和博弈问题。该研究的核心是通过成本函数设计和NZSG的Nash均衡解的近似,处理多输入非线性系统的高效控制。

人工实际控制与ADP

研究中采用改进的艾伦曼神经网络(Elman Dynamic Neural Networks,EDNNs)构建人工系统,通过自适应调整参数,EDNNs逐渐逼近真实系统的动态行为,实现更有效的控制。该人工系统通过不断学习与调整参数,与物理系统进行人工-实际交互,以实现对系统状态的预测。

具体步骤如下: 1. 构建人工系统:使用改进的艾伦曼神经网络进行训练,包含输入层、隐藏层、承担层和输出层。借助Dropout正则化防止过拟合,每一隐藏神经元随机丢弃一定比例的激活值,提升网络的性能。 2. 构建批评者-行动者结构:利用多项式参数化逼近值函数和控制策略。通过梯度下降法,不断更新权重参数以最小化误差。 3. 引入三种触发机制:事件触发机制(Event-triggered Mechanism,ETM),动态事件触发机制(Dynamic Event-triggered Mechanism,DETM)和自触发机制(Self-triggered Mechanism,STM)。这些机制分别通过不同的方式优化通信效率和系统的稳定性。

实验与结果

为验证所设计的控制方案,研究在一个具有约束输入的二连杆机械手系统上进行模拟实验。系统控制过程分为以下几步:

  1. 系统状态建模:定义包含位置和速度的系统状态模型。
  2. 控制策略模拟:比较ETM、DETM和STM三种机制下的控制策略,并在控制器输入信号上施加特定约束。
  3. 数据分析:通过设定不同触发阈值,记录触发次数、触发率以及系统状态变化。

具体结果

  1. 事件触发机制(ETM)

    • 节省通信资源,减少不必要的更新,表现高效。
    • 系统出现阶梯状变化,控制策略有效将系统状态收敛至平衡点。
    • 避免Zeno现象,保持系统的稳定性。
  2. 动态事件触发机制(DETM)

    • 引入动态变量,进一步减少通信量,提高采样效率。
    • 控制策略中通过动态调整触发间隔,提高系统学习效率。
    • 实验证明,DETM仍保持系统稳定性,并具有更高的资源利用率。
  3. 自触发机制(STM)

    • 具备主动响应能力,不依赖外部监控硬件。
    • 通过内部计算预测下一个触发点,提高系统预测能力和主动性。
    • 实验结果表明STM能够高效管理通信资源,并避免触发延迟。

结论与意义

该研究通过构建ADP方案,采用人工-实际交互优化系统,成功解决了多输入约束条件下的非零和博弈控制问题。数据通信的优化,减少了系统的计算与通信压力,提升了整体系统的控制效率和稳定性。该论文的研究结果不仅在理论上丰富了自动控制领域的研究方法,还为实际工程应用提供了可行性高的解决方案。

亮点

  1. 创新的人工-实际交互控制机制:通过EDNNs实现较高精度的系统状态预测,提升了控制效果。
  2. 三种自适应触发机制:有效减少了数据传输量,优化了系统性能,具有较高的工程实用性。
  3. 应用前景:该研究的成果在机器人系统、智能控制系统等多个领域具有重要应用价值,尤其适用于资源受限和高可靠性要求的复杂系统。

以上为《Adaptive Sampling Artificial-Actual Control for Non-Zero-Sum Games of Constrained Systems》论文的全面报道与解读。本研究通过自适应动态编程和多触发机制设计,为复杂多输入控制系统提供了创新性解决方案。