Gradient de politique déterministe profond à double acteur-critique retardé avec mémoire épisodique
Contexte académique L’apprentissage par renforcement profond (Deep Reinforcement Learning, DRL) a réalisé des accomplissements remarquables dans divers domaines tels que les jeux, la robotique, la navigation, la vision par ordinateur et la finance. Cependant, les algorithmes DRL existants souffrent généralement d’un problème d’efficacité d’échantil...