Deep Reinforcement Learning Guided by a Library of Possibly Unreliable Advice - Archive ouverte HAL Access content directly
Conference Papers Year : 2020

Deep Reinforcement Learning Guided by a Library of Possibly Unreliable Advice

Apprentissage par Reinforcement profond guidé par ensemble de politiques sources

(1, 2) , (1) , (2)
1
2

Abstract

Humans' impressive learning abilities are partly due to their capacity to reuse information from diverse sources. This competency is incredibly valuable for quickly mastering new tasks. Moreover, it is fundamental to overcome sample inefficiency of Reinforcement Learning. Nevertheless, without safeguards, following advice blindly may be detrimental to the learning process. Still, standard guidance schemes are poorly designed to asses the value of advice leading to weak guidance because valuable advice become indiscernible from detrimental one. We propose a novel transfer learning algorithm in which a library of policies potentially trained in different contexts advises a student learner. We provide evidence that the standard guidance algorithm which directly manipulates the student's policy is sensitive to follow sub-optimal advice. On the contrary, we propose to guide the student by maximizing the value function taken over a particular mixture of policies. The mixture of policies incorporate the knowledge from expert and rapidly provide fast learning. Our approach allows sample efficiency, even with sub-optimal advisors. It improves the overall performance of the algorithm concerning learning from scratch a task. We evaluate our approach on several control benchmarks.We provide strong empirical evidence that in multiple contexts that our approach provides exciting results.
Les capacités d'apprentissage impressionnantes des humains sont dues, dans une large mesure, à leur capacité à réutiliser les informations provenant de diverses sources. Transférer la compétence d'un agent constitue donc l'un des moyens les plus efficaces pour initialiser un agent sur une nouvelle tache. Cependant, sans garanties, l'imitation aveugle de conseils peut être préjudiciable. La raison réside dans l'incapacité d'un agent à évaluer correctement la valeur de ces conseils. Pour tirer des enseignements de conseils éventuellement peu fiables, nous proposons d'intégrer la connaissance d'une bibliothèque de politiques de conseillers (dite sources), en utilisant comme proxy la fonction de valeur. Cette fonction d'évaluation permet de quantifier la valeur d'une action (et donc d'un conseil). En outre, elle permet non seulement de choisir les meilleurs conseils parmi un ensemble proposé mais aussi d'entraîner un agent (dit target) à surpasser la compétence des politiques sources. Notre approche ne nécessite les conseillers qu'en phase d'entraînement et est robuste aux conseils inadéquats. Nous démontrons empiriquement sur un ensemble de tâches standard la résilience aux conseils peu fiables de notre algorithme et sa capacité à produire un transfert de compétences qui surpasse l'ensemble des politiques sources.
Fichier principal
Vignette du fichier
CAp2020_paper_22.pdf (2.33 Mo) Télécharger le fichier
Origin : Files produced by the author(s)

Dates and versions

hal-03146143 , version 1 (18-02-2021)

Identifiers

  • HAL Id : hal-03146143 , version 1

Cite

Nizam Makdoud, Jérôme Kodjabachian, Marc Schoenauer. Deep Reinforcement Learning Guided by a Library of Possibly Unreliable Advice. CAP'2020 - Conférence d'Apprentissage, AFIA, Jun 2020, Vannes, France. ⟨hal-03146143⟩
82 View
329 Download

Share

Gmail Facebook Twitter LinkedIn More