Modélisation de l'erreur de Bellman avec la distribution logistique et ses applications en apprentissage par renforcement

Contexte et objectifs de l’étude L’apprentissage par renforcement (Reinforcement Learning, RL) est devenu ces dernières années un domaine dynamique et transformationnel de l’intelligence artificielle, avec pour objectif de maximiser la récompense cumulative grâce à l’interaction entre un agent et son environnement. Cependant, l’application du RL da...