分享自:

深度跟踪控制:结合模型规划与强化学习的混合控制架构

期刊:Science RoboticsDOI:10.1126/scirobotics.adh5401

研究作者与机构

该研究的主要作者包括Fabian Jenelten、Junzhe He、Farbod Farshidian和Marco Hutter,他们来自瑞士苏黎世联邦理工学院(ETH Zurich)的机器人系统实验室。该研究于2024年1月17日发表在《Science Robotics》期刊上,文章标题为《DTC: Deep Tracking Control》。


学术背景

该研究的主要科学领域是机器人学,特别是腿式机器人(legged robots)的运动控制。腿式机器人在复杂地形中的运动控制是一个极具挑战性的问题,传统方法通常依赖于基于模型的轨迹优化(trajectory optimization, TO)和逆动力学(inverse dynamics)。尽管这些方法在规划精度和泛化能力上表现出色,但它们对模型假设的依赖性较强,容易因模型不匹配或假设失效而导致故障。另一方面,基于强化学习(reinforcement learning, RL)的方法虽然在鲁棒性和恢复能力上表现出色,但在稀疏奖励(sparse rewards)环境中(如存在间隙或踏脚石的地形)表现不佳。

该研究的目的是结合基于模型的方法和基于数据驱动的方法的优势,提出一种混合控制架构,以同时实现更高的鲁棒性、脚部放置精度和地形泛化能力。


研究流程

该研究的主要流程包括以下几个步骤:

  1. 模型规划与参考运动生成

    • 使用基于模型的规划器(如TAMOLS,Terrain-Aware Motion Optimization for Legged Systems)生成参考运动轨迹。
    • 规划器优化脚部放置位置和基座姿态,同时考虑地形信息。
  2. 深度神经网络策略训练

    • 在仿真环境中训练一个深度神经网络策略,目标是跟踪优化后的脚部放置位置。
    • 策略的输入包括脚部位置、关节位置和接触状态等信息。
  3. 混合控制架构的实现

    • 将基于模型的规划器与基于强化学习的策略结合,形成混合控制架构。
    • 规划器提供参考运动,策略负责实时跟踪这些参考运动。
  4. 实验验证

    • 在稀疏地形(如间隙和踏脚石)上评估脚部放置精度。
    • 在存在滑动或可变形地面的环境中测试鲁棒性。
    • 验证该控制架构在不同轨迹优化方法上的泛化能力。
  5. 数据分析

    • 通过仿真和实际实验收集数据,评估脚部跟踪误差、鲁棒性和泛化能力。
    • 使用统计方法分析实验结果,并与现有方法进行对比。

主要结果

  1. 脚部放置精度

    • 在稀疏地形上,该方法的脚部放置精度显著优于纯数据驱动方法。
    • 在平坦地面上,脚部跟踪误差平均为2.3厘米,标准差为0.48厘米。
  2. 鲁棒性

    • 在滑动或可变形地面上,该方法表现出优于基于模型控制器的鲁棒性。
    • 在视觉数据不一致或缺失的情况下,机器人仍能通过本体感知(proprioception)成功恢复平衡。
  3. 泛化能力

    • 该方法能够泛化到训练中未见过的轨迹优化方法。
    • 在搜索和救援场景中,机器人能够精确放置脚部并表现出强大的恢复能力。

结论与意义

该研究提出了一种结合基于模型规划和强化学习的混合控制架构,显著提升了腿式机器人在复杂地形中的运动能力。其科学价值在于: - 提供了一种新的控制范式,结合了基于模型方法的规划能力和强化学习的鲁棒性。 - 解决了稀疏奖励环境中的学习难题,扩展了强化学习在腿式机器人中的应用范围。

其应用价值主要体现在: - 在建筑工地、矿山和灾难救援等复杂环境中,该方法能够显著提升腿式机器人的自主运动能力。 - 为未来腿式机器人在实际场景中的部署提供了技术基础。


研究亮点

  1. 重要发现

    • 混合控制架构在稀疏地形和不确定环境中表现出色,显著优于现有的基于模型和基于强化学习的方法。
    • 该方法能够泛化到不同的轨迹优化方法,展示了其强大的适应性。
  2. 方法创新

    • 提出了结合基于模型规划和强化学习的混合控制架构,解决了传统方法在鲁棒性和精度上的局限性。
    • 开发了高效的轨迹优化方法(TAMOLS),并成功应用于实际机器人控制。
  3. 研究对象的特殊性

    • 该研究专注于腿式机器人在复杂地形中的运动控制,具有重要的实际应用价值。

其他有价值的内容

  1. 训练环境与数据

    • 研究团队在仿真环境中训练了超过4000个机器人,覆盖了超过76,000平方米的地形,生成了约23年的优化轨迹数据。
    • 训练过程中使用了大规模并行计算,显著提升了训练效率。
  2. 未来研究方向

    • 进一步优化网络结构,提升样本效率和泛化能力。
    • 探索更复杂的混合控制方法,如直接修改规划器的成本函数。

总结

该研究通过结合基于模型的方法和强化学习的优势,提出了一种创新的混合控制架构,显著提升了腿式机器人在复杂地形中的运动能力。其成果不仅在理论上具有重要价值,也为腿式机器人在实际场景中的应用提供了新的可能性。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com