本文介绍了一项关于人-机-物系统(Human-Cyber–Physical Systems, HCPS)的研究,由Xiaochen Tang、Miaomiao Zhang、Wanwei Liu、Bowen Du和Zhiming Liu等人共同完成,并于2023年发表在《Journal of Systems Architecture》期刊上。该研究旨在提出一种新的计算模型——人-机-物自动机(Human-Cyber–Physical Automata, HCPA),并设计一个控制策略合成框架,以最大化系统满足给定线性时序逻辑(Linear Temporal Logic, LTL)属性的概率。
随着信息物理系统(Cyber–Physical Systems, CPS)的研究和应用日益增多,人类在系统中的角色变得越来越重要。传统的CPS主要关注物理系统与信息系统的交互,而HCPS则进一步将人类纳入系统循环中,强调人类、信息系统和物理系统之间的复杂交互。然而,现有的HCPS研究大多停留在概念框架和架构设计层面,缺乏形式化的计算模型来支持系统的设计、开发、运行和维护。因此,本文提出了一种基于自动机的HCPA模型,旨在为HCPS提供理论支持,并通过控制策略的合成框架,解决人类与机器之间的控制切换问题。
本文的研究流程主要包括以下几个步骤:
模型定义:HCPA模型由两个部分组成,分别是人-物理系统自动机(Human-Physical System Automaton, HPSA)和信息物理系统自动机(Cyber–Physical System Automaton, CPSA)。这两个自动机通过一个切换控制自动机(Switch Control Automaton)连接,该自动机负责在关键状态下决定控制权在人类和机器之间的切换。
控制策略合成:为了生成满足LTL属性的控制策略,本文提出了一种基于无模型强化学习(Model-Free Reinforcement Learning, RL)的合成框架。该框架通过扩展Bozkurt等人提出的算法,结合深度强化学习(Deep-RL)技术,解决了奖励稀疏性问题,并提高了策略合成的效率。
实验验证:本文通过两个案例研究验证了所提出框架的有效性。第一个案例是一个有限状态的网格世界中的移动机器人路径规划问题,第二个案例是一个无限状态的月球着陆器模拟任务。实验结果表明,基于HCPA模型的合成框架能够成功学习到人类与机器之间的切换策略,并且相比单独由人类或机器控制的系统,能够以更高的概率满足给定的LTL属性。
本文的主要贡献包括: 1. 提出了HCPA模型:该模型通过将HPSA和CPSA结合,并通过切换控制自动机进行连接,能够有效描述人类与机器之间的控制切换机制。理论证明表明,控制切换能够增加系统满足给定属性的概率。 2. 设计了控制策略合成框架:该框架基于无模型强化学习算法,能够在不预先知道系统模型的情况下,通过样本学习生成最优的切换策略。实验结果表明,该框架在解决复杂系统的控制策略合成问题上具有较高的效率和准确性。 3. 开发了原型工具:本文开发了一个基于Python的原型工具,用于实现所提出的合成框架,并通过实验验证了其在实际应用中的可行性。
本文的研究为HCPS的设计和控制提供了新的理论和方法支持。HCPA模型不仅能够描述人类与机器之间的交互行为,还能够通过控制切换机制提高系统的安全性和可靠性。此外,所提出的控制策略合成框架为复杂系统的自动化控制提供了新的思路,具有广泛的应用前景,特别是在自动驾驶、智能制造和航空航天等领域。
本文通过提出HCPA模型和控制策略合成框架,为HCPS的研究和应用提供了重要的理论和方法支持。实验结果表明,所提出的方法能够有效提高系统满足给定LTL属性的概率,具有广泛的应用前景。未来的研究可以进一步探索更复杂的HCPS场景,并优化控制策略合成算法,以应对更多的实际挑战。