作者:Xingchen Wan, Cong Lu, Jack Parker-Holder, Philip J. Ball, Vu Nguyen, Binxin Ru, Michael A. Osborne
所属单位:
- 1. Machine Learning Research Group, University of Oxford, Oxford, UK
- 2. Amazon, Adelaide, Australia
期刊:AutoML Conference 2022
代码可公开访问:GitHub Repository
强化学习(Reinforcement Learning,RL)已经在诸多领域和任务中展现出了强大的训练智能体的能力。然而,RL算法对超参数和网络架构的敏感性构成了广泛应用的主要障碍,而这同时增加了超参数调整的计算成本。此外,由于训练过程中模型复杂性的增长以及输入数据分布的非平稳性,不同训练阶段可能需要不同的最优超参数和架构选择,这使得问题更为复杂。
为了解决这一关键挑战,自动强化学习(AutoRL)方法迅速兴起,其中人群训练(Population-Based Training, PBT)表现尤为突出,通过并行优化智能体来实现高效的超参数调节。然而,传统PBT方法大多仅限于有限的低维超参数优化,且架构固定,这限制了它们在更高维问题中的应用广泛性。
在此背景下,本文提出了全新的“Bayesian Generational Population-Based Training”(Bayesian生成性人群训练,BG-PBT)方法。这一方法通过引入基于贝叶斯优化的高效探索策略与生成性迭代设计,在单一训练过程中动态联合优化网络架构与超参数,从而显著增强了PBT的能力,并为RL领域提供了新的研究与应用前景。
BG-PBT方法通过以下两项创新解决了传统PBT存在的限制:
1. 基于贝叶斯优化的高维搜索:该方法利用信赖域(Trust Regions)和时间动态高斯过程(Gaussian Process)构建全覆盖的高维混合输入搜索空间,显著提升了超参数探索效率。 2. 生成式训练与网络蒸馏:借助生成性学习(Generational Learning),BG-PBT在单次训练中通过跨网络架构的策略蒸馏实现架构与超参数的联合动态优化。
强化学习基于Markov决策过程(Markov Decision Process, MDP)建模,其目标是寻找能最大化期望折算回报的策略函数。常用的Proximal Policy Optimization (PPO)算法显示出了优越的性能,适用于大规模并行计算。为优化RL中的超参数,PBT通过如下步骤展开: - 并行优化:利用一组智能体分布式地并行训练。 - 探索与利用:定期评估智能体表现,将表现不佳者替换为优秀智能体的权重,并对其超参数进行随机突变探索。
然而,由于超参数和网络架构之间复杂的相互作用关系,传统PBT在优化范围和动态调节方面的能力受限。
BG-PBT设计了一种特化的贝叶斯优化策略: - 混合搜索空间建模:将连续、离散(有序和无序的变量)视为联合搜索空间,通过不同核函数对变量性质的特殊处理进行建模。 - 信赖域动态调整:在优化过程中维护一个动态信赖区域,渐进放大/收缩搜索范围以局部探索最优解,同时加入全局重启策略以避免局部最优。
这一策略允许BG-PBT以可证明的子线性后悔上限(Regret Bound)高效优化高维复杂超参数空间。
通过此方法,BG-PBT不仅能够发现适宜的超参数,还能够动态优化策略与价值网络的深度、宽度等架构特性。
BG-PBT方法在7个Brax环境下进行了验证,证明了其在多种强化学习任务中性能优越。
在Ant, HalfCheetah等挑战性任务中,BG-PBT显著优于现有PBT方法(如PB2)以及传统的随机搜索(Random Search)和静态贝叶斯优化(Sequential BO)。事实上,与单一优化超参数的PB2相比,BG-PBT通过联合优化网络架构,表现出明显优势。
实验还表明,相比传统静态超参数,BG-PBT发现了动态调整学习率和批量大小的超参数调度策略,映射环境复杂性变化。
以Ant任务为例: - 学习率随时间显著降低,从较大的初始值逐步减小,这符合模型收敛需求。 - 批量大小逐步增加,以提升采样效率和稳定性。 - 策略与价值网络在训练后期趋向于更为宽大的网络结构,从而实现复杂任务的高效建模。
研究还进行了系列消融实验,分别剔除信赖域和动态架构优化,验证了BG-PBT提出的每一组件对于最终性能的必要性。此外,在更为动态的环境Scale-Up实验中(扩展至更高训练时间步或更大智能体规模),BG-PBT表现出了良好的扩展性。
BG-PBT的提出展示了如何将贝叶斯优化拓展至高维、动态混合输入搜索空间并与生成性架构搜索统一,这不仅提升了PBT方法的能力,也为更广泛的AutoRL方法设计提供了重要参考。
BG-PBT在Brax等模拟环境中的成功体现了它在实际复杂任务中开发环境无关强化学习算法(environment-agnostic RL)的潜力。这为自动化导航、机器人控制等领域开发具有长期自主学习能力的智能体奠定了基础。
此研究向开放强化学习及更具环境适应力的智能体发展迈出重要一步,通过开源代码,研究者可基于BG-PBT加速自身的研究或实际部署。