分享自:

基于贝叶斯优化的世代种群训练方法在强化学习中的应用

《Bayesian Generational Population-Based Training:基于贝叶斯生成的新一代人群训练方法》

作者:Xingchen Wan, Cong Lu, Jack Parker-Holder, Philip J. Ball, Vu Nguyen, Binxin Ru, Michael A. Osborne
所属单位:
- 1. Machine Learning Research Group, University of Oxford, Oxford, UK
- 2. Amazon, Adelaide, Australia
期刊:AutoML Conference 2022
代码可公开访问:GitHub Repository


研究背景与意义

强化学习(Reinforcement Learning,RL)已经在诸多领域和任务中展现出了强大的训练智能体的能力。然而,RL算法对超参数和网络架构的敏感性构成了广泛应用的主要障碍,而这同时增加了超参数调整的计算成本。此外,由于训练过程中模型复杂性的增长以及输入数据分布的非平稳性,不同训练阶段可能需要不同的最优超参数和架构选择,这使得问题更为复杂。

为了解决这一关键挑战,自动强化学习(AutoRL)方法迅速兴起,其中人群训练(Population-Based Training, PBT)表现尤为突出,通过并行优化智能体来实现高效的超参数调节。然而,传统PBT方法大多仅限于有限的低维超参数优化,且架构固定,这限制了它们在更高维问题中的应用广泛性。

在此背景下,本文提出了全新的“Bayesian Generational Population-Based Training”(Bayesian生成性人群训练,BG-PBT)方法。这一方法通过引入基于贝叶斯优化的高效探索策略与生成性迭代设计,在单一训练过程中动态联合优化网络架构与超参数,从而显著增强了PBT的能力,并为RL领域提供了新的研究与应用前景。


方法与工作流程

BG-PBT方法通过以下两项创新解决了传统PBT存在的限制:
1. 基于贝叶斯优化的高维搜索:该方法利用信赖域(Trust Regions)和时间动态高斯过程(Gaussian Process)构建全覆盖的高维混合输入搜索空间,显著提升了超参数探索效率。 2. 生成式训练与网络蒸馏:借助生成性学习(Generational Learning),BG-PBT在单次训练中通过跨网络架构的策略蒸馏实现架构与超参数的联合动态优化。

1. 强化学习框架与PBT方法背景

强化学习基于Markov决策过程(Markov Decision Process, MDP)建模,其目标是寻找能最大化期望折算回报的策略函数。常用的Proximal Policy Optimization (PPO)算法显示出了优越的性能,适用于大规模并行计算。为优化RL中的超参数,PBT通过如下步骤展开: - 并行优化:利用一组智能体分布式地并行训练。 - 探索与利用:定期评估智能体表现,将表现不佳者替换为优秀智能体的权重,并对其超参数进行随机突变探索。

然而,由于超参数和网络架构之间复杂的相互作用关系,传统PBT在优化范围和动态调节方面的能力受限。

2. BG-PBT工作流程概述

Step1: 贝叶斯优化与高维探索

BG-PBT设计了一种特化的贝叶斯优化策略: - 混合搜索空间建模:将连续、离散(有序和无序的变量)视为联合搜索空间,通过不同核函数对变量性质的特殊处理进行建模。 - 信赖域动态调整:在优化过程中维护一个动态信赖区域,渐进放大/收缩搜索范围以局部探索最优解,同时加入全局重启策略以避免局部最优。

这一策略允许BG-PBT以可证明的子线性后悔上限(Regret Bound)高效优化高维复杂超参数空间。

Step2: 生成性训练与动态架构

  • 架构生成:每一代训练开始时,智能体会从随机采样或上一代优化的架构池中选择网络架构。
  • 策略蒸馏:通过结合监督学习和强化学习损失,将上一代的最优策略(Teacher)转移到新架构(Student)中。这为不同架构间的信息迁移提供了统一框架,即使架构不同,策略依旧能够保留核心行为。

通过此方法,BG-PBT不仅能够发现适宜的超参数,还能够动态优化策略与价值网络的深度、宽度等架构特性。


实验结果与分析

BG-PBT方法在7个Brax环境下进行了验证,证明了其在多种强化学习任务中性能优越。

主实验结果

在Ant, HalfCheetah等挑战性任务中,BG-PBT显著优于现有PBT方法(如PB2)以及传统的随机搜索(Random Search)和静态贝叶斯优化(Sequential BO)。事实上,与单一优化超参数的PB2相比,BG-PBT通过联合优化网络架构,表现出明显优势。

实验还表明,相比传统静态超参数,BG-PBT发现了动态调整学习率和批量大小的超参数调度策略,映射环境复杂性变化。

高维架构与超参数分析

以Ant任务为例: - 学习率随时间显著降低,从较大的初始值逐步减小,这符合模型收敛需求。 - 批量大小逐步增加,以提升采样效率和稳定性。 - 策略与价值网络在训练后期趋向于更为宽大的网络结构,从而实现复杂任务的高效建模。

消融与分比较研究

研究还进行了系列消融实验,分别剔除信赖域和动态架构优化,验证了BG-PBT提出的每一组件对于最终性能的必要性。此外,在更为动态的环境Scale-Up实验中(扩展至更高训练时间步或更大智能体规模),BG-PBT表现出了良好的扩展性。


研究价值与意义

1. 学术价值

BG-PBT的提出展示了如何将贝叶斯优化拓展至高维、动态混合输入搜索空间并与生成性架构搜索统一,这不仅提升了PBT方法的能力,也为更广泛的AutoRL方法设计提供了重要参考。

2. 应用价值

BG-PBT在Brax等模拟环境中的成功体现了它在实际复杂任务中开发环境无关强化学习算法(environment-agnostic RL)的潜力。这为自动化导航、机器人控制等领域开发具有长期自主学习能力的智能体奠定了基础。


研究亮点与未来方向

研究亮点:

  • 联合超参数和架构调控:首次在单次PBT框架内实现了统一调控架构与超参数的能力。
  • 生成性架构学习:结合跨网络的策略蒸馏,使得复杂智能体架构调控成为可能。
  • 动态超参数优化:自动发现训练各阶段适配的动态调度策略,优于固定参数调度方法。

未来方向及挑战:

  • 复杂环境适用性:对于如Humanoid等环境,动态架构搜索不如缺省固定架构高效,该问题需要更精确的架构选择策略。
  • 更全面搜索:目前蒸馏与PBT的一些参数仍为固定值,进一步自动化搜索(如蒸馏超参数)具有潜在提升空间。
  • 更广阔的任务适配:研究如何扩展至支持视觉任务的复杂架构搜索空间或结合环境参数优化,将推动强化学习更广泛部署。

此研究向开放强化学习及更具环境适应力的智能体发展迈出重要一步,通过开源代码,研究者可基于BG-PBT加速自身的研究或实际部署。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com