基于情景记忆的双Actor-Critic框架在深度强化学习中的应用
学术背景
深度强化学习(Deep Reinforcement Learning, DRL)在游戏、机器人、导航、计算机视觉和金融等多个领域取得了显著成就。然而,现有的DRL算法普遍存在样本效率低下的问题,即需要大量的数据和训练步骤才能达到理想的性能。尤其是在连续动作任务中,由于状态-动作空间的高维性,传统的DRL算法难以有效利用情景记忆(Episodic Memory)来指导动作选择,导致样本效率进一步降低。
情景记忆是一种非参数控制方法,通过记忆高回报的历史经验来提升样本效率。在离散动作任务中,情景记忆可以直接用于评估每个可能的动作,并选择估计值最高的动作。然而,在连续动作任务中,动作空间是无限的,传统的情景记忆方法难以直接应用于动作选择。因此,如何在连续动作任务中有效利用情景记忆来提升样本效率,成为当前DRL研究中的一个重要问题。
论文来源
这篇论文由Man Shu、Shuai Lü、Xiaoyu Gong、Daolong An和Songlin Li共同撰写,作者分别来自吉林大学符号计算与知识工程教育部重点实验室、长春光学精密机械与物理研究所以及吉林大学计算机科学与技术学院。论文于2025年发表在Neural Networks期刊上,题为《Episodic Memory-Double Actor–Critic Twin Delayed Deep Deterministic Policy Gradient》。
研究内容
研究流程
1. 研究问题与目标
本研究的主要目标是解决连续动作任务中DRL算法样本效率低下的问题。作者提出了一种新的框架,称为“情景记忆-双Actor-Critic(Episodic Memory-Double Actor-Critic, EMDAC)”,旨在通过情景记忆来指导动作选择,从而提升样本效率。具体来说,EMDAC框架通过结合情景记忆和双Critic网络来评估状态-动作对的价值,减少Critic网络估计偏差对样本效率的负面影响。
2. EMDAC框架设计
EMDAC框架的核心在于利用情景记忆和双Critic网络来评估动作的价值。具体流程如下: - 双Actor网络:EMDAC框架包含两个Actor网络,分别依赖于两个Critic网络。每个Actor网络输出一个候选动作。 - 情景记忆:情景记忆用于存储过去高回报的状态-动作对的价值估计。作者设计了一种基于卡尔曼滤波器(Kalman Filter)的情景记忆更新方法,能够更准确地估计状态-动作对的价值。 - 动作选择:在动作选择过程中,EMDAC框架结合情景记忆和Critic网络来评估两个候选动作的价值,并选择估计值较高的动作。
3. 基于卡尔曼滤波器的情景记忆
传统的均值更新方法在更新情景记忆时,对早期和后期收集的经验赋予相同的权重,导致情景记忆的估计偏差较大。为了解决这一问题,作者提出了一种基于卡尔曼滤波器的情景记忆更新方法。该方法根据训练进度为不同时期的经验赋予不同的权重,从而提高了情景记忆的准确性。
4. 基于情景记忆的内在奖励
为了增强智能体的探索能力,作者设计了一种基于情景记忆的内在奖励(Intrinsic Reward)。该奖励鼓励智能体探索更新颖的状态-动作对,从而避免陷入局部最优。
5. EMDAC-TD3算法
作者将EMDAC框架、基于卡尔曼滤波器的情景记忆和内在奖励应用于Twin Delayed Deep Deterministic Policy Gradient(TD3)算法,提出了EMDAC-TD3算法。该算法在OpenAI Gym的Mujoco环境中进行了评估,结果表明其在样本效率上优于基线算法。
主要结果
1. 样本效率提升
在Mujoco环境中的实验结果表明,EMDAC-TD3算法在样本效率上显著优于基线算法TD3。具体来说,EMDAC-TD3在相同的训练步骤下能够获得更高的回报,或在更少的训练步骤下达到相同的性能。
2. 最终性能对比
与当前最先进的情景控制算法和Actor-Critic算法相比,EMDAC-TD3在最终回报、中位数、四分位均值和均值等指标上均表现出色。与TD3相比,EMDAC-TD3的平均性能提升了11.01%。
3. 情景记忆的有效性
通过对比EMDAC-TD3与其变体算法的性能,作者验证了情景记忆在提升样本效率中的有效性。实验结果表明,结合情景记忆和Critic网络来评估状态-动作对的价值,能够显著提升样本效率。
4. 内在奖励的探索能力
在SparseMujoco环境中的实验结果表明,基于情景记忆的内在奖励能够有效增强智能体的探索能力,使其在稀疏奖励任务中表现更优。
结论
本研究提出了一种新的EMDAC框架,通过结合情景记忆和双Critic网络来提升连续动作任务中DRL算法的样本效率。基于卡尔曼滤波器的情景记忆更新方法和内在奖励设计进一步增强了算法的性能。实验结果表明,EMDAC-TD3在样本效率和最终性能上均优于当前最先进的算法。
研究亮点
- 创新性框架:EMDAC框架首次在连续动作任务中结合情景记忆和双Critic网络来评估动作价值,解决了传统方法难以直接应用情景记忆的问题。
- 基于卡尔曼滤波器的情景记忆:通过为不同时期的经验赋予不同的权重,提高了情景记忆的准确性。
- 内在奖励设计:基于情景记忆的内在奖励增强了智能体的探索能力,使其在稀疏奖励任务中表现更优。
- 广泛的实验验证:在Mujoco和SparseMujoco环境中的实验结果表明,EMDAC-TD3在样本效率和最终性能上均优于当前最先进的算法。
研究价值
本研究不仅在理论上提出了新的DRL框架,还通过实验验证了其在实际任务中的有效性。EMDAC框架的提出为连续动作任务中的DRL算法提供了新的思路,具有广泛的应用前景,特别是在机器人控制、自动驾驶和金融交易等领域。