深層強化学習による二足歩行ロボットの敏捷なサッカースキルの学習

深層強化学習で二足ロボットに敏捷なサッカースキルを付与

学習訓練ステップ

背景説明

エージェントが物理世界で敏捷性、柔軟性、理解力を示すことは、人工知能(Artificial Intelligence, AI)研究の長年の目標の一つです。しかし、動物や人間は複雑な身体の動きを流暢にこなすだけでなく、環境を感知し理解し、身体を使って世界で複雑な目標を達成することができます。歴史的に、複雑な運動能力を持つ知的な身体エージェントを作ろうとする試みは長く続いており、それはシミュレーション環境でも現実の環境でも同様です。近年の技術の急速な進歩、特に学習に基づく方法論の進展により、深層強化学習(Deep Reinforcement Learning, Deep RL)が、シミュレーションキャラクターでも物理ロボットでも、複雑な運動制御問題を効率的に解決できることが証明されました。

しかし、二足歩行ロボットや人形ロボットについては、安定性、ロボットの安全性、自由度の数、ハードウェアの使用可能性といった特有の課題があるため、学習に基づく方法の応用はまだ少ないのです。現行の最先端研究は、特定のモデル予測制御に依存しており、この方法の汎用性を制限しています。

本研究は、Google DeepMindのTuomas Haarnoja氏ほかの研究者によって行われ、低コストで市販されている小型二足歩行ロボットを用いて1対1の簡略版サッカースキルを訓練し、深層強化学習(Deep RL)が複雑で動的な全身制御タスクにどれだけ適応できるかを探ります。本研究は、現行の二足歩行ロボットの運動制御の限界に挑戦すると共に、この過程でのDeep RLの有効性と潜在力を示しています。

論文情報

本論文は、Google DeepMindのTuomas Haarnoja氏、Ben Moran氏、Guy Lever氏らによって共同で執筆され、2024年4月10日発行の《Science Robotics》誌に掲載され、2024年4月17日に修正されました。

研究のプロセスと方法

研究プロセス

本研究のプロセスは以下の二つの主要な段階に分かれます:

第一段階:スキルトレーニング スキルトレーニング段階では、ロボットに起き上がる技と得点する技をそれぞれ訓練しました。得点する技の訓練では、ロボットの目標はできるだけ多くの得点を獲得することで、相手は訓練されていないダミーです。一連の重み付き報酬関数によって、ロボットの前進速度やボールとのインタラクションを向上させるよう促し、物理ロボットへの応用に必要な制約を含め、ロボット損傷のリスクを減らしました。起き上がる技の訓練では、重要な姿勢を収集し、特定の姿勢に基づいてポーズ制御と調整を行い、起き上がる過程での安定性と無衝突を確保しました。

第二段階:蒸留と自己学習 第二段階では、第一段階の異なるスキルを結合して蒸留し、マルチエージェントの自己学習環境で訓練を行い、最終的に全方位のサッカー試合が可能な1対1のエージェントを形成しました。自己学習過程では、相手は前の訓練段階から選んだいくつかのエージェントのスナップショットからランダムに抽出されます。スキルの重み付き報酬とマルチエージェントの対抗訓練を重ねることで、スキルの統合と向上を実現しました。

訓練の詳細

訓練の詳細プロセスでは、研究者たちは部分観測可能なマルコフ決定プロセス(POMDP)とMPO(最大事後確率方策最適化)アルゴリズムを用いて訓練を行いました。具体的な手順としては、エージェントはまずシミュレーション環境で初期方策をテストし、一連の低コストなロボットサンプルを通じて最適化を行います。訓練過程の入力にはロボットの姿勢、線加速度、角速度、重力方向、ゲームの状態(ロボットとボール、相手、ゴールの相対位置と速度)などがあります。ドメインランダム化やランダム摂動の技術を用いることで、訓練された方策はより強い頑健性とクロスドメイン移行能力を持つようになります。

実験結果

比較と性能評価

研究チームは訓練された方策を実際の環境で使用し、一連の比較実験を通じてそのパフォーマンス、汎化能力、安定性を示しました。比較に使用されたロボットの行動には、歩行、転向、起き上がり、キックが含まれます。実験結果は、スクリプトに基づいた制御方法と比較してDeep RLで訓練された方策が多くの面で明らかに優れており、歩行速度が181%速くなり、転向速度が302%向上し、起き上がり時間が63%短縮し、キック速度が34%向上することを示しています。

UMAP(統一パス近似と投影)方法を用いてロボットの行動のパスを可視化し、Deep RL方策がスクリプトに基づいた方法に比べて動作の連続性と柔軟性に優れていることを示しました。また、Deep RL方策は一定範囲内でランダムに初期化され、相手に対応し動作を調整するための高い柔軟性を持ち、インターセプトや動的な足取りの調整など多様な対応策を示しました。

結論および意義

本研究は深層強化学習を用いて低コストな二足歩行ロボットに簡略版1対1のサッカー試合を訓練し、Deep RLが動的で複雑かつ全身制御が必要なタスクにおける潜在能力を示しました。研究は、適切な正則化、ドメインランダム化、および訓練過程におけるノイズの挿入によって、低コストなロボットでも高品質な方策移行を実現できることを示しました。本研究は、二足歩行ロボットの運動制御の限界に挑んだだけでなく、ロボットの動的タスクにおける深層強化学習の応用可能性をさらに証明しました。

研究のハイライト

  1. 高性能:手動設計の基準制御方法と比較して、Deep RL方策は優れたパフォーマンスを示し、加速、転向、起き上がりなどの面で顕著な利点を示します。
  2. スマートな対応策:エージェントはゲームの具体的な状況に適応した行動を自動で発見し、手動設計では実現が難しい遮蔽、キーパー、防御のためのランニングなどの戦略を示しました。
  3. シームレスなスキル統合:あらかじめ訓練された起き上がりと得点スキルを通じて、探索効率を向上させるだけでなく、エージェントが異なる状況に対処するときに滑らかな動作の移行を示しました。

今後の課題と発展の方向

本研究は、現在のロボット運動制御がシミュレーションから現実に移行可能であることを示すだけでなく、将来の研究に新たな方向性を提供しました。例えば、多エージェントの協力訓練や視覚情報に基づいて直接ロボットが意思決定を行うことの探索などです。外部状態情報への依存を減らし、エージェントの動的活動範囲をさらに拡大することが、今後の研究の重要な内容となるでしょう。