基于概率神经网络的强化学习模型在预测控制无人水面艇中的高效应用
无人水面车辆(USV)的模型预测控制新方法:基于概率神经网络的MBRL框架
学术背景
无人水面车辆(Unmanned Surface Vehicles, USV)近年来在海洋科学领域迅速发展,广泛应用于海洋运输、环境监测、灾害救援等场景。然而,USV的控制系统仍然面临诸多挑战,尤其是在复杂海洋环境中应对外部干扰的能力。传统的模型自由强化学习(Model-Free Reinforcement Learning, MFRL)方法虽然在某些任务中表现良好,但其依赖大量数据和模拟训练,且缺乏对不确定环境的鲁棒性。为了解决这些问题,模型基础强化学习(Model-Based Reinforcement Learning, MBRL)方法应运而生。MBRL通过同时学习环境模型和优化控制策略,能够更高效地应对外部干扰。
然而,目前主流的MBRL方法通常基于高斯过程(Gaussian Process, GP)模型,其计算复杂度随着样本容量的增加呈指数增长,限制了其在复杂场景中的应用。为了克服这一限制,本文提出了一种新的概率神经网络模型预测控制方法(Probabilistic Neural Networks Model Predictive Control, PNMPC),旨在通过神经网络从概率角度建模USV动态,同时降低计算复杂度,提升控制性能。
论文来源
本文由Wenjun Huang, Yunduan Cui, Huiyun Li和Xinyu Wu共同撰写,他们分别来自中国科学院大学和中国科学院深圳先进技术研究院。论文发表于IEEE Transactions on Automation Science and Engineering,并于2025年正式出版。研究得到了中国国家自然科学基金和深圳市研发基金的支持。
研究流程
1. 问题定义与模型构建
本文的研究目标是设计一种能够在复杂海洋环境中高效控制USV的MBRL框架。首先,作者将USV动态建模为一个马尔可夫决策过程(Markov Decision Process, MDP)。USV的状态空间包括位置、航向、速度、舵角、油门等变量,动作空间则为舵角和油门的控制指令。通过这种建模方式,作者能够更好地捕捉USV在外部干扰下的动态行为。
2. 概率神经网络模型的设计
为了解决GP模型计算复杂度高的问题,作者提出了一种概率神经网络模型。该模型通过随机丢弃(Dropout)和神经网络集成(Ensembles)来捕捉USV动态的不确定性。具体来说,模型通过多个独立的神经网络和随机的丢弃单元,能够从概率角度预测USV的下一状态。为了提高预测精度,模型在训练过程中采用了连续两步的动态损失函数,这有助于更好地捕捉USV在时间上的动态特征。
3. 模型预测控制策略
基于上述概率神经网络模型,作者设计了一种模型预测控制(Model Predictive Control, MPC)策略。该策略通过优化一系列动作序列来最大化未来奖励,同时考虑USV动态的不确定性。与传统的GP-MPC方法不同,PNMPC通过神经网络集成和随机丢弃单元来传播不确定性,同时避免了多层预测中误差的过度放大。
4. 实验与评估
为了验证PNMPC的有效性,作者在真实的USV数据驱动的仿真环境中进行了实验,包括位置保持和多目标跟踪任务。实验设置了三种不同强度的外部干扰,以模拟复杂的海洋环境。实验结果表明,PNMPC在模型精度和控制性能上均显著优于传统的GP模型和方法,且其计算复杂度与样本容量无关,适合大规模应用。
主要结果
1. 模型学习与预测精度
实验结果显示,PNMPC在预测USV的下一状态时表现出更高的精度和更低的预测误差方差。与传统的GP模型和现有的神经网络方法相比,PNMPC能够更好地捕捉USV的动态特征,尤其在强干扰环境下表现尤为突出。此外,PNMPC的模型预测误差随样本容量的增加而显著降低,表明其具有良好的泛化能力。
2. 控制性能
在位置保持任务中,PNMPC的平均位置偏移和任务成功率均优于其他基线方法。在多目标跟踪任务中,PNMPC在跟踪距离和任务完成率上也表现出显著优势。即使在最高强度的干扰下,PNMPC仍能保持较高的控制稳定性,而其他方法的表现则迅速恶化。
3. 计算效率
由于PNMPC的计算复杂度与样本容量无关,其能够在大规模样本集上高效运行。相比之下,基于GP模型的方法在大样本集上的优化时间显著增加,难以满足实时控制的需求。
结论
本文提出的PNMPC方法通过结合概率神经网络和模型预测控制策略,有效地解决了传统MBRL方法在USV控制中的计算复杂度和鲁棒性问题。实验结果表明,PNMPC在模型精度、控制性能和计算效率上均显著优于现有方法,为复杂海洋环境中的USV控制提供了一种高效的解决方案。
研究亮点
- 创新的概率神经网络模型:通过随机丢弃和神经网络集成,PNMPC能够从概率角度高效捕捉USV动态,避免了传统GP模型的高计算复杂度。
- 高效的不确定性传播机制:PNMPC结合了Deep PILCO和PETS的优点,提出了一种新型的不确定性传播机制,提升了多步预测的稳定性。
- 独立于样本容量的计算复杂度:PNMPC的计算复杂度与样本容量无关,使其适合大规模应用。
- 鲁棒的控制性能:在强干扰环境下,PNMPC表现出显著的控制优势和泛化能力。
意义与价值
PNMPC的提出不仅为USV控制领域提供了新的理论和方法,还具有广泛的应用前景。其高效的建模和优化能力可以推广到其他无人系统(如无人机、无人车)的控制中,为复杂环境下的自主控制提供技术支持。同时,PNMPC的独立计算复杂度特性也为大规模数据集的应用提供了可能,具有重要的工程实践意义。