强化学习中神经网络表示的性质探究

传统的表征学习方法通常是设计固定的基函数架构,以达到正交性、稀疏性等期望的性质。而深度强化学习的理念则是,设计者不应编码表征的性质,而是让数据流决定表征的性质,使良好的表征在适当的训练方案下自发涌现。

本研究使用的神经网络结构 这项研究探讨了通过深度强化学习系统学习的表征(representation)的性质。此研究将这两种观点结合,通过实证分析,探讨了在强化学习中能够促进迁移的表征所具有的性质。作者提出并测量了六种表征性质,在25000多个代理任务设置中进行了研究。他们使用了带有不同辅助损失的深度Q学习代理,在基于像素的导航环境中进行实验,其中源任务和迁移任务对应于不同的目标位置。

研究人员开发了一种方法,通过系统地变化任务相似性并测量与迁移性能相关的表征性质,从而更好地理解为什么某些表征更适合迁移。他们还证明了该方法的普适性,通过研究彩虹智能体(Rainbow agent)在Atari 2600游戏模式之间成功迁移时所学习的表征。

主要发现包括:

  1. 辅助任务可促进产生有利于迁移的表征,但许多辅助任务在ReLU网络中无法胜过从头学习。

  2. 使用稀疏激活函数FTA是提高迁移能力的重要因素,无论是否使用辅助任务,FTA表征都能持续迁移。

  3. ReLU表征能很好地迁移到非常相似的任务,但在迁移到不太相似的任务时,表现远差于FTA。

  4. 线性函数逼近无法实现迁移,当表征输入到非线性值函数中时,性能明显更好。

  5. 最佳迁移表征具有高复杂度缩减、中高动态意识(dynamics awareness)和多样性,以及中等正交性和稀疏性。

研究人员提出了一种系统的方法来调查表征及其性质。通过迭代实验设计、开发性质度量集、调整超参数和可视化大量数据,他们得出了上述发现。

作者将此方法应用于理解Atari 2600游戏模式之间的表征迁移,发现彩虹智能体学习到的表征与迷宫环境中表现最佳的FTA表征具有类似的性质:高复杂度缩减、高正交性和稀疏性,以及中等多样性。这表明所提出的性质和方法是有意义的。

这项工作通过提供定量分析方法,对理解强化学习中学习到的表征做出了有益补充。研究结果为设计更好的表征学习算法提供了见解。