强化学习中神经网络表示的性质探究
传统的表征学习方法通常是设计固定的基函数架构,以达到正交性、稀疏性等期望的性质。而深度强化学习的理念则是,设计者不应编码表征的性质,而是让数据流决定表征的性质,使良好的表征在适当的训练方案下自发涌现。 这项研究探讨了通过深度强化学习系统学习的表征(representation)的性质。此研究将这两种观点结合,通过实证分析,探讨了在强化学习中能够促进迁移的表征所具有的性质。作者提出并测量了六种表征性质,在25000多个代理任务设置中进行了研究。他们使用了带有不同辅助损失的深度Q学习代理,在基于像素的导航环境中进行实验,其中源任务和迁移任务对应于不同的目标位置。 研究人员开发了一种方法,通过系统地变化任务相似性并测量与迁移性能相关的表征性质,从而更好地理解为什么某些表征更适合迁移。他们还证明了该...