Deep Reinforcement Learning Guided by a Library of Possibly Unreliable Advice

Nizam Makdoud; Jérôme Kodjabachian; Marc Schoenauer

Communication Dans Un Congrès Année : 2020

Deep Reinforcement Learning Guided by a Library of Possibly Unreliable Advice

Apprentissage par Reinforcement profond guidé par ensemble de politiques sources

(1, 2) , (1) , (2)

1
2

Nizam Makdoud

Fonction : Auteur

ThereSIS lab - Thales

TAckling the Underspecified

Jérôme Kodjabachian

Fonction : Auteur

ThereSIS lab - Thales

Marc Schoenauer

Fonction : Auteur
PersonId : 739309
IdHAL : evomarc
ORCID : 0000-0003-1450-6830
IdRef : 057775575

TAckling the Underspecified

Résumé

Humans' impressive learning abilities are partly due to their capacity to reuse information from diverse sources. This competency is incredibly valuable for quickly mastering new tasks. Moreover, it is fundamental to overcome sample inefficiency of Reinforcement Learning. Nevertheless, without safeguards, following advice blindly may be detrimental to the learning process. Still, standard guidance schemes are poorly designed to asses the value of advice leading to weak guidance because valuable advice become indiscernible from detrimental one. We propose a novel transfer learning algorithm in which a library of policies potentially trained in different contexts advises a student learner. We provide evidence that the standard guidance algorithm which directly manipulates the student's policy is sensitive to follow sub-optimal advice. On the contrary, we propose to guide the student by maximizing the value function taken over a particular mixture of policies. The mixture of policies incorporate the knowledge from expert and rapidly provide fast learning. Our approach allows sample efficiency, even with sub-optimal advisors. It improves the overall performance of the algorithm concerning learning from scratch a task. We evaluate our approach on several control benchmarks.We provide strong empirical evidence that in multiple contexts that our approach provides exciting results.

Les capacités d'apprentissage impressionnantes des humains sont dues, dans une large mesure, à leur capacité à réutiliser les informations provenant de diverses sources. Transférer la compétence d'un agent constitue donc l'un des moyens les plus efficaces pour initialiser un agent sur une nouvelle tache. Cependant, sans garanties, l'imitation aveugle de conseils peut être préjudiciable. La raison réside dans l'incapacité d'un agent à évaluer correctement la valeur de ces conseils. Pour tirer des enseignements de conseils éventuellement peu fiables, nous proposons d'intégrer la connaissance d'une bibliothèque de politiques de conseillers (dite sources), en utilisant comme proxy la fonction de valeur. Cette fonction d'évaluation permet de quantifier la valeur d'une action (et donc d'un conseil). En outre, elle permet non seulement de choisir les meilleurs conseils parmi un ensemble proposé mais aussi d'entraîner un agent (dit target) à surpasser la compétence des politiques sources. Notre approche ne nécessite les conseillers qu'en phase d'entraînement et est robuste aux conseils inadéquats. Nous démontrons empiriquement sur un ensemble de tâches standard la résilience aux conseils peu fiables de notre algorithme et sa capacité à produire un transfert de compétences qui surpasse l'ensemble des politiques sources.

Domaines

Intelligence artificielle [cs.AI]

Fichier principal

CAp2020_paper_22.pdf (2.33 Mo)

Origine : Fichiers produits par l'(les) auteur(s)

Marc Schoenauer : Connectez-vous pour contacter le contributeur

https://inria.hal.science/hal-03146143

Soumis le : jeudi 18 février 2021-18:40:19

Dernière modification le : jeudi 15 février 2024-03:31:15

Archivage à long terme le : mercredi 19 mai 2021-19:40:15

Dates et versions

hal-03146143 , version 1 (18-02-2021)

Identifiants

HAL Id : hal-03146143 , version 1

Citer

Nizam Makdoud, Jérôme Kodjabachian, Marc Schoenauer. Deep Reinforcement Learning Guided by a Library of Possibly Unreliable Advice. CAP'2020 - Conférence d'Apprentissage, AFIA, Jun 2020, Vannes, France. ⟨hal-03146143⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-RENNES1 CNRS INRIA IRISA UMR8623 CENTRALESUPELEC INRIA2 LRI-AO UR1-MATH-STIC UNIV-PARIS-SACLAY UR1-UFR-ISTIC UNIV-RENNES UR1-MATH-NUM LISN GS-ENGINEERING GS-COMPUTER-SCIENCE GS-LIFE-SCIENCES-HEALTH LISN-AO

91 Consultations

336 Téléchargements

Deep Reinforcement Learning Guided by a Library of Possibly Unreliable Advice

Apprentissage par Reinforcement profond guidé par ensemble de politiques sources

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager