Deep Reinforcement Learning Guided by a Library of Possibly Unreliable Advice - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Communication Dans Un Congrès Année : 2020

Deep Reinforcement Learning Guided by a Library of Possibly Unreliable Advice

Apprentissage par Reinforcement profond guidé par ensemble de politiques sources

Résumé

Humans' impressive learning abilities are partly due to their capacity to reuse information from diverse sources. This competency is incredibly valuable for quickly mastering new tasks. Moreover, it is fundamental to overcome sample inefficiency of Reinforcement Learning. Nevertheless, without safeguards, following advice blindly may be detrimental to the learning process. Still, standard guidance schemes are poorly designed to asses the value of advice leading to weak guidance because valuable advice become indiscernible from detrimental one. We propose a novel transfer learning algorithm in which a library of policies potentially trained in different contexts advises a student learner. We provide evidence that the standard guidance algorithm which directly manipulates the student's policy is sensitive to follow sub-optimal advice. On the contrary, we propose to guide the student by maximizing the value function taken over a particular mixture of policies. The mixture of policies incorporate the knowledge from expert and rapidly provide fast learning. Our approach allows sample efficiency, even with sub-optimal advisors. It improves the overall performance of the algorithm concerning learning from scratch a task. We evaluate our approach on several control benchmarks.We provide strong empirical evidence that in multiple contexts that our approach provides exciting results.
Les capacités d'apprentissage impressionnantes des humains sont dues, dans une large mesure, à leur capacité à réutiliser les informations provenant de diverses sources. Transférer la compétence d'un agent constitue donc l'un des moyens les plus efficaces pour initialiser un agent sur une nouvelle tache. Cependant, sans garanties, l'imitation aveugle de conseils peut être préjudiciable. La raison réside dans l'incapacité d'un agent à évaluer correctement la valeur de ces conseils. Pour tirer des enseignements de conseils éventuellement peu fiables, nous proposons d'intégrer la connaissance d'une bibliothèque de politiques de conseillers (dite sources), en utilisant comme proxy la fonction de valeur. Cette fonction d'évaluation permet de quantifier la valeur d'une action (et donc d'un conseil). En outre, elle permet non seulement de choisir les meilleurs conseils parmi un ensemble proposé mais aussi d'entraîner un agent (dit target) à surpasser la compétence des politiques sources. Notre approche ne nécessite les conseillers qu'en phase d'entraînement et est robuste aux conseils inadéquats. Nous démontrons empiriquement sur un ensemble de tâches standard la résilience aux conseils peu fiables de notre algorithme et sa capacité à produire un transfert de compétences qui surpasse l'ensemble des politiques sources.
Fichier principal
Vignette du fichier
CAp2020_paper_22.pdf (2.33 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-03146143 , version 1 (18-02-2021)

Identifiants

  • HAL Id : hal-03146143 , version 1

Citer

Nizam Makdoud, Jérôme Kodjabachian, Marc Schoenauer. Deep Reinforcement Learning Guided by a Library of Possibly Unreliable Advice. CAP'2020 - Conférence d'Apprentissage, AFIA, Jun 2020, Vannes, France. ⟨hal-03146143⟩
91 Consultations
336 Téléchargements

Partager

Gmail Facebook X LinkedIn More