Étude des propriétés des représentations de réseaux neuronaux dans l'apprentissage par renforcement

Les méthodes d’apprentissage de représentation traditionnelles conçoivent généralement une architecture de fonctions de base fixe afin d’obtenir les propriétés souhaitées, comme l’orthogonalité ou la parcimonie. L’idée de l’apprentissage profond par renforcement est que le concepteur ne doit pas coder les propriétés de la représentation mais plutôt laisser le flux de données déterminer les propriétés de la représentation, permettant ainsi l’émergence spontanée de bonnes représentations sous un régime d’entraînement approprié.

Architecture de réseau neuronal utilisée dans cette étude Cette étude explore les propriétés des représentations apprises par un système d’apprentissage profond par renforcement. Elle combine ces deux points de vue et examine, par le biais d’une analyse empirique, les propriétés des représentations susceptibles de favoriser le transfert dans l’apprentissage par renforcement. Les auteurs proposent et mesurent six propriétés de représentation, étudiées sur plus de 25 000 configurations d’agents.

Ils utilisent des agents d’apprentissage profond Q avec différentes pertes auxiliaires, dans des environnements de navigation basés sur les pixels, où les tâches sources et de transfert correspondent à différents emplacements cibles. Les chercheurs ont développé une approche permettant de mieux comprendre pourquoi certaines représentations sont plus adaptées au transfert, en faisant varier systématiquement la similitude des tâches et en mesurant les propriétés de représentation liées aux performances de transfert. Ils ont également démontré la généralité de leur approche en étudiant les représentations apprises par un agent Rainbow lorsqu’il transfère avec succès entre les modes de jeu Atari 2600.

Les principales conclusions sont les suivantes :

  1. Les tâches auxiliaires peuvent favoriser des représentations propices au transfert, mais de nombreuses tâches auxiliaires n’arrivent pas à dépasser l’apprentissage à partir de zéro dans les réseaux ReLU.

  2. L’utilisation de la fonction d’activation parcimonieuse FTA est un facteur clé pour améliorer la capacité de transfert, les représentations FTA se transférant de manière durable avec ou sans tâches auxiliaires.

  3. Les représentations ReLU se transfèrent bien aux tâches très similaires, mais leurs performances sont largement inférieures à celles des FTA lors du transfert vers des tâches moins similaires.

  4. L’approximation par une fonction linéaire ne permet pas le transfert, les performances étant nettement meilleures lorsque les représentations sont fournies à une fonction de valeur non linéaire.

  5. Les meilleures représentations pour le transfert présentent une réduction de complexité élevée, une prise en compte moyenne à élevée de la dynamique et de la diversité, ainsi qu’une orthogonalité et une parcimonie moyennes.

Les chercheurs ont adopté une approche systématique pour étudier les représentations et leurs propriétés. À travers une conception itérative d’expériences, le développement d’un ensemble de mesures de propriétés, le réglage des hyper-paramètres et la visualisation de grandes quantités de données, ils ont obtenu ces résultats.

En appliquant cette méthode pour comprendre le transfert de représentations entre les modes de jeu Atari 2600, ils ont constaté que les représentations apprises par l’agent Rainbow présentent des propriétés similaires aux meilleures représentations FTA dans l’environnement de labyrinthe : une réduction de complexité élevée, une forte orthogonalité et parcimonie, ainsi qu’une diversité moyenne. Cela suggère que les propriétés et la méthode proposées sont pertinentes.

Ce travail complète utilement la compréhension des représentations apprises dans l’apprentissage par renforcement en fournissant une méthode d’analyse quantitative. Les résultats offrent des perspectives pour la conception de meilleurs algorithmes d’apprentissage de représentations.