分享自:

基于深度强化学习的自动驾驶车辆引导权重变化MPC方法

期刊:2021 European Control Conference (ECC)

本文档属于类型a,即报告了一项原创性研究。以下是基于文档内容生成的学术报告:


作者及机构
本研究的主要作者包括Baha Zarrouki、Verena Klös、Nikolas Heppner、Simon Schwan、Robert Ritschel和Rick Voßwinkel。他们分别来自德国柏林工业大学(Technische Universität Berlin)的软件工程与理论计算机科学研究所,以及德国IAV GmbH公司的智能驾驶功能部门。该研究发表于2021年6月29日至7月2日在荷兰鹿特丹举行的欧洲控制会议(European Control Conference, ECC)。

学术背景
本研究的主要科学领域是自动驾驶车辆的路径跟踪控制,特别是基于模型预测控制(Model Predictive Control, MPC)的优化方法。MPC在复杂控制任务中表现出色,但其性能高度依赖于成本函数的设计。传统的MPC成本函数权重选择需要大量人工调参,耗时且依赖专家经验。随着自动驾驶任务的复杂性增加,自动化这一过程变得尤为重要。本研究的背景知识包括MPC的基本原理、深度强化学习(Deep Reinforcement Learning, RL)算法及其在控制优化中的应用。研究的目标是通过深度强化学习自动学习上下文相关的最优成本函数权重,并在线调整这些权重,以提升MPC的性能。

研究流程
本研究分为以下几个主要步骤:

  1. 问题定义与MPC框架构建
    研究基于非线性MPC方法,提出了一种模型预测路径跟踪控制(Model Predictive Path-Following Control, MPFC)框架。该框架的目标是使车辆尽可能精确地跟踪给定的几何参考路径。MPC在每个时间步通过解决一个优化问题来计算控制变量,优化问题的成本函数包括路径偏差、横向加速度和路径速度误差等。

  2. 深度强化学习与MPC结合
    研究提出了一种动态权重调整MPC(Weights-varying MPC, WMPC)方法,将MPC与深度强化学习结合。WMPC的核心思想是通过深度神经网络(Deep Neural Network, DNN)在线调整成本函数的权重。DNN通过强化学习算法进行训练,目标是最大化长期累积奖励。研究采用了Twin Delayed Deep Deterministic Policy Gradient(TD3)算法,这是一种适用于连续动作空间的深度强化学习算法。

  3. 奖励函数设计
    研究设计了一种多目标高斯奖励函数(Multi-Objective Gaussian, MOG)和多目标级联高斯奖励函数(Multi-Objective Cascaded Gaussian, MOCG),用于指导强化学习代理优化MPC权重。奖励函数的目标包括最小化路径偏差、横向加速度、纵向加速度和纵向急动度(jerk)等。

  4. 训练与评估
    研究在Simulink仿真框架中对WMPC进行了训练和评估。训练场景包括城市道路和高速公路,车辆模型为大众帕萨特。训练过程中,MPC采样时间为0.04秒,权重调整间隔为10秒。每个训练周期为300秒,共进行2000个周期的训练。评估指标包括路径偏差、横向加速度、纵向加速度和急动度等。

  5. 鲁棒性测试
    研究还测试了训练后的WMPC在不同条件下的鲁棒性,包括未经验证的路径、模型不匹配(如车辆重量变化)以及不同车辆模型(如大众e-Golf)。

主要结果
1. 路径跟踪模式
在路径跟踪模式下,RL驱动的WMPC在路径偏差和纵向误差方面显著优于人工调参的MPC。例如,最大横向偏差从50厘米降低到8厘米,纵向误差时间平均值从1.354米降低到1.108米。

  1. 舒适模式
    在舒适模式下,RL驱动的WMPC在横向加速度和纵向急动度方面表现出色。使用MOCG奖励函数训练的代理在横向加速度和急动度的中位数分别为0.006 m/s²和0.281 m/s³,显著优于使用MOG奖励函数的代理。

  2. 鲁棒性测试结果
    训练后的WMPC在未经验证的路径、模型不匹配和不同车辆模型下均表现出良好的鲁棒性。例如,在高速公路场景下,性能仅下降7.6%;在车辆重量增加20%的情况下,性能下降15.3%;在不同车辆模型下,性能下降5.48%。

结论
本研究提出了一种基于深度强化学习的动态权重调整MPC方法,显著提升了自动驾驶车辆路径跟踪控制的性能。通过自动化MPC成本函数权重调整,研究不仅减少了人工调参的工作量,还提高了控制系统的鲁棒性和适应性。该方法在路径跟踪和舒适模式下的表现均优于传统人工调参的MPC,且在未经验证的环境和条件下表现出良好的鲁棒性。

研究亮点
1. 创新性方法
本研究首次将深度强化学习与MPC结合,提出了一种动态权重调整MPC方法,显著提升了MPC的性能和适应性。

  1. 多目标奖励函数
    研究设计了一种新颖的多目标级联高斯奖励函数(MOCG),能够同时优化多个控制目标,如路径跟踪和驾驶舒适性。

  2. 鲁棒性验证
    研究通过多种未经验证的条件测试了WMPC的鲁棒性,证明了该方法在实际应用中的潜力。

  3. 自动化调参
    通过深度强化学习,研究实现了MPC成本函数权重的自动化调参,减少了对专家经验的依赖,提高了控制系统的设计效率。

其他有价值的内容
研究还提出了一种通用的RL-WMPC算法框架,适用于其他控制领域。未来的研究方向包括对WMPC的稳定性分析、实时可行性评估以及设计MPC特定的强化学习算法以加速学习过程。


以上是本研究的详细报告,涵盖了研究背景、流程、结果、结论及其科学价值和应用价值。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com