深度强化学习为双足机器人赋能敏捷的足球技能

2024-05-28 Tue
深度强化学习为双足机器人赋能敏捷的足球技能
背景介绍智能体在物理世界中展现出敏捷、灵活和理解能力，是人工智能（Artificial Intelligence，AI）研究长期以来的目标之一。然而，动物和人类不仅能流畅地完成复杂的身体动作，还能感知和理解环境，并通过身体在世界中实现复杂的目标。从历史上看，创造具有复杂运动能力的智能化身体代理的尝试由来已久，无论是在仿真环境中还是在现实中。伴随近几年技术的加速进步，尤其是基于学习的方法对这一领域的推进，深度强化学习（Deep Reinforcement Learning，Deep RL）已经证明其能够高效解决复杂的运动控制问题，无论是对于仿真角色还是物理机器人。
然而，对于人形和双足机器人，由于其在稳定性、机器人安全性、自由度数量和硬件可用性方面的特殊挑战，基于学习的方法应用相较较少。当前的最前沿研究仍然依赖于针对性的模型预测控制，局限了方法的通用性。
本文由Google DeepMind的Tuomas Haarnoja以及其他合作者们开展，重点采用深度强化学习（Deep RL）方法，以低成本、现成的双足小型人形机器人为载体训练其一对一简化版的足球比赛技能，探索其对复杂、动态的全身控制任务的适应能力。本文的研究不仅在挑战现有双足机器人运动控制的极限，还展示了Deep RL在此过程中的有效性和潜力。
论文来源本文由Google DeepMind的Tuomas Haarnoja、Ben Moran、Guy Lever等人共同完成，发表于2024年4月10日的《Science Robotics》期刊，并在2024年4月17日进行了修正。
研究流程及方法研究流程本文的研究流程包括以下两个主要阶段：
第一阶段：技能训练
在技能训练阶段，作者分别训练了机器人起身技能和进球技能。训练进球技能时，机器人的目标是尽可能多地得分，训练对手为未训练的假人。通过一组权重组合的奖励函数，鼓励机器人提高其前进速度和与球的互动，并包含在物理机器人应用中的必要约束以减少机器人损坏的风险。训练起身技能时，采集关键姿势，采用基于目标特定姿势的体位控制和调整来引导机器人的动作，确保起身过程中的稳定性和无碰撞。
第二阶段：蒸馏和自学习
在第二阶段，结合第一阶段的不同技能进行蒸馏并在多智能体自学习环境中进行训练，最终形成能够进行全方位足球比赛的1v1智能体。在自学习过程中，对手从先前训练阶段中选取的部分智能体快照中随机抽取。通过叠加技能的权重奖励和多智能体对抗训练，实现技能的融合和提升。
训练细节在训练详细流程中，研究人员采用部分可观察的马尔科夫决策过程（POMDP）并通过MPO（最大后验概率策略优化）算法进行训练。具体过程为：智能体首先在仿真环境中测试初始策略，通过一系列低成本的机器人样本进行优化。训练过程中的输入包括机器人的姿势、线性加速度、角速度、重力方向，以及游戏状态（机器人与球、对手、球门的相对位置和速度）。通过域随机化和施加随机扰动等技术，训练出的策略具备更强的鲁棒性和跨域转移能力。
实验结果比较和性能评估研究团队将训练好的策略用于真实环境，通过一系列对比实验展示其表现、泛化能力和稳定性。用于对比的机器人行为包括步行、转身、起身和踢球等。实验结果表明，与基于脚本的控制方法相比，Deep RL训练的策略在多个方面表现明显优于手动设计的基线，其步行速度快181%，转向速度提高302%，起身时间减少63%，踢球速度提升34%。
通过统一路径近似和投影（UMAP）方法对机器人行为的路径进行可视化分析，展示了Deep RL策略较基于脚本的方法在动作连续性和灵活性方面的优势。此外，Deep RL策略在一定范围内随机初始化，为应对对手和调整动作提供了更高的灵活性，并展示出包括截击、动态步伐调整等多种应对策略。
结论及意义本文通过使用深度强化学习训练低成本双足机器人进行简化版1v1足球比赛，展示了Deep RL在动态、复杂且需要全身控制的任务中的潜力。研究表明，通过适当的正则化、域随机化及在训练过程中注入噪声，即使是低成本机器人亦能够实现高质量的策略转移。此研究不仅推进了双足机器人运动控制的极限，还进一步验证了深度强化学习在机器人动态任务中的应用潜力。
研究亮点强悍表现：相较于手动设计的基线控制方法，Deep RL策略表现优越，体现出其在加速、转向、起身等方面的显著优势。
智能应对策略：智能体自动发现了适应游戏具体情境的行为，展示出包括遮挡、守门、防守跑位等策略，难以通过手动设计实现。
无缝技能融合：通过预先训练的起身和进球技能，不仅提高了探索效率还促使智能体在应对不同情境时表现出流畅的动作过渡。
未来工作和发展方向本文的研究不仅揭示了当前机器人运动控制模拟到真实的可行性，还为未来研究提供了新的方向：如多智能体合作训练，探索由视觉信息直接引导的机器人决策等。摆脱对外部状态信息的依赖和进一步扩展智能体的动态行为谱，都将是未来研究的重要内容。