Gradient de politique déterministe profond à double acteur-critique retardé avec mémoire épisodique

Contexte académique L’apprentissage par renforcement profond (Deep Reinforcement Learning, DRL) a réalisé des accomplissements remarquables dans divers domaines tels que les jeux, la robotique, la navigation, la vision par ordinateur et la finance. Cependant, les algorithmes DRL existants souffrent généralement d’un problème d’efficacité d’échantil...