エピソードメモリダブルアクタークリティックツインディレイドディープデターミニスティックポリシーグラディエント

学術的背景 深層強化学習(Deep Reinforcement Learning, DRL)は、ゲーム、ロボット、ナビゲーション、コンピュータビジョン、金融など、さまざまな分野で顕著な成果を上げています。しかし、既存のDRLアルゴリズムは、一般的にサンプル効率が低いという問題を抱えています。つまり、理想的な性能を達成するためには、大量のデータとトレーニングステップが必要です。特に連続動作タスクでは、状態-アクション空間の高次元性により、従来のDRLアルゴリズムはエピソード記憶(Episodic Memory)を効果的に活用してアクション選択を導くことが難しく、サンプル効率がさらに低下します。 エピソード記憶は、非パラメトリック制御手法の一つであり、高報酬の履歴経験を記憶することでサンプル効率...

NPE-DRL: 非専門家政策誘導強化学習による知覚制約型障害物回避支援

非専門家ポリシー強化学習に基づくドローンの視覚制限環境における障害回避能力の向上に関する研究 近年、ドローン(Unmanned Aerial Vehicle, UAV)はその卓越した機動性と多様な機能性により、荷物の配送、リスク評価、緊急救助といった民間分野で広く利用されています。しかし、ドローンが遂行するミッションの複雑性、範囲、持続時間が増加するにつれて、特に混雑した高い不確実性の環境で障害回避を実現することが大きな課題となっています。しかし、従来のグローバルナビゲーション手法は通常、視覚が制限された条件下での障害シナリオを処理することが難しく、全体的な情報に依存しています。本研究では、このようなシナリオでの障害回避問題に取り組み、ドローンのリアルタイムナビゲーション能力を向上させること...