考虑环境不确定性的稳健多目标强化学习

背景介绍 近年来,强化学习(Reinforcement Learning, RL)在解决各种复杂任务方面展示了其有效性。然而,许多现实世界中的决策和控制问题涉及多个相互冲突的目标。这些目标的相对重要性(偏好)在不同情景下需要权衡。尽管帕累托最优解(Pareto optimal)的解决方案被认为是理想的,但环境不确定性(例如,环境变化或观察噪声)可能会导致代理采取次优策略。 针对上述问题,Xiangkun He、Jianye Hao等人发表了一篇题为《Robust Multiobjective Reinforcement Learning Considering Environmental Uncertainties》的论文,旨在研究一种新的多目标优化范式,提出了在考虑环境不确定性的情况下的健...