演员-评论家算法-术语-FmRead学术前沿

学术背景深度强化学习（Deep Reinforcement Learning, DRL）在游戏、机器人、导航、计算机视觉和金融等多个领域取得了显著成就。然而，现有的DRL算法普遍存在样本效率低下的问题，即需要大量的数据和训练步骤才能达到理想的性能。尤其是在连续动作任务中，由于状态-动作空间的高维性，传统的DRL算法难以有效利用情景记忆（Episodic Memory）来指导动作选择，导致样本效率进一步降低。情景记忆是一种非参数控制方法，通过记忆高回报的历史经验来提升样本效率。在离散动作任务中，情景记忆可以直接用于评估每个可能的动作，并选择估计值最高的动作。然而，在连续动作任务中，动作空间是无限的，传统的情景记忆方法难以直接应用于动作选择。因此，如何在连续动作任务中有效利用情景记忆来提升样...