基于情景记忆的双Actor-Critic框架在深度强化学习中的应用

学术背景 深度强化学习(Deep Reinforcement Learning, DRL)在游戏、机器人、导航、计算机视觉和金融等多个领域取得了显著成就。然而,现有的DRL算法普遍存在样本效率低下的问题,即需要大量的数据和训练步骤才能达到理想的性能。尤其是在连续动作任务中,由于状态-动作空间的高维性,传统的DRL算法难以有效利用情景记忆(Episodic Memory)来指导动作选择,导致样本效率进一步降低。 情景记忆是一种非参数控制方法,通过记忆高回报的历史经验来提升样本效率。在离散动作任务中,情景记忆可以直接用于评估每个可能的动作,并选择估计值最高的动作。然而,在连续动作任务中,动作空间是无限的,传统的情景记忆方法难以直接应用于动作选择。因此,如何在连续动作任务中有效利用情景记忆来提升样...

NPE-DRL: 一种用于无人机在感知受限环境下规避障碍物的非专家策略增强深度强化学习方法

基于非专家策略强化学习改进无人机视觉受限环境下的避障能力研究 近年来,无人机(Unmanned Aerial Vehicle,UAV)凭借其卓越的机动性和多样化的功能,广泛应用于包裹递送、风险评估和紧急救援等民用领域。然而,随着无人机执行任务的复杂性、范围和时长的增加,其自主导航的难度也显著上升,尤其是在拥挤且高度不确定的环境中实现避障。然而,传统的全球导航方法通常依赖全局信息,难以处理视觉受限条件下的障碍场景。本研究的目的是解决这些场景中的避障问题,提升无人机的实时导航能力。 此外,尽管基于深度强化学习(Deep Reinforcement Learning,DRL)的避障算法通过端到端处理方式表现出色,能够减小计算复杂度并提升适应性和可扩展性,但它们的采样效率偏低,需要大量的样本迭代以实...