ロジスティック分布を用いたベルマン誤差のモデリングと強化学習への応用

論文の背景と研究目的 強化学習(Reinforcement Learning, RL)は近年、人工知能分野で非常に活発かつ変革的な分野となっており、その目的はエージェントと環境との相互作用を通じて累積報酬を最大化する能力を実現することです。しかし、実際にRLを応用する際にはベルマン誤差(Bellman Error)の最適化という課題が直面しています。この誤差は深層Q学習などの関連アルゴリズムで特に重要で、従来の方法は主に平均二乗ベルマン誤差(Mean-Squared Bellman Error, MSELoss)を標準の損失関数として使用しています。ただし、ベルマン誤差が正規分布に従うという仮定は、RL応用における複雑な特性を過度に単純化している可能性があります。したがって、本論文はRL訓練...