Sample-efficient deep reinforcement learning for control, exploration and safety - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Thèse Année : 2021

Sample-efficient deep reinforcement learning for control, exploration and safety

Apprentissage par renforcement profond efficace pour le contrôle, l'exploration et la sûreté

Résumé

One major challenge of reinforcement learning is to efficiently explore an environment in order to learn optimal policies through trial and error. To achieve this, the agent must be able to learn effectively from past experiences, enabling it to form an accurate picture of the benefit of certain actions over others. Beyond that, an obvious but central issue is that what is not known must be explored, and the necessity to explore in a safe way adds another layer of difficulty to the problem. These are the main issues that we address in this Ph.D. thesis. By deconstructing the actor-critic framework and developing alternative formulations of the underlying optimization problem using the notion of variance, we explore how deep reinforcement learning algorithms can more effectively solve continuous control problems, hard exploration environments and risk-sensitive tasks. The first part of the thesis focuses on the critic component of the actor-critic framework, also referred to as value function, and how to learn more efficiently to control agents in continuous control domains through distinct uses of the variance in the value function estimates. The second part of the thesis is concerned with the actor component of the actor-critic framework, also referred to as policy. We propose the introduction of a third element to the optimization problem that agents solve by introducing an adversary. The adversary is of the same nature as the RL agent but trained to suggest actions that mimic the actor or counteract the constraints of our problem. It is represented by some averaged policy distribution with which the actor must differentiate his behavior by maximizing its divergence with it, eventually encouraging the actor to explore more thoroughly in tasks where efficient exploration is a bottleneck, or to act more safely.
Un des défis majeurs de l'apprentissage par renforcement est d'explorer efficacement un environnement afin d'apprendre une politique optimale par une méthode à base d'essai-erreur. Pour y parvenir, l'agent doit être capable d'apprendre efficacement de ses expériences passées, ce qui lui permet d'estimer la performance de certaines actions par rapport à d'autres. En outre, une problématique évidente mais centrale est que ce qui n'est pas connu doit être exploré, et la nécessité d'explorer d'une manière sûre ajoute un autre niveau de difficulté au problème. Ce sont les principales questions que nous abordons dans cette thèse de doctorat. En déconstruisant la méthode acteur-critique et en développant des formulations alternatives du problème d'optimisation sous-jacent via la notion de variance, nous explorons comment les algorithmes d'apprentissage par renforcement profond peuvent résoudre plus efficacement les problèmes de contrôle continu, les environnements d'exploration difficiles et les tâches exposées au risque. La première partie de la thèse se concentre sur la composante du critique de l'approche acteur-critique, ou fonction de valeur, et sur la façon d'apprendre plus efficacement à contrôler les agents dans les domaines de contrôle continu par des utilisations distinctes de la variance dans les estimations de la fonction de valeur. La deuxième partie de la thèse s'intéresse à la composante acteur de l'approche acteur-critique, aussi appelée politique. Nous proposons l'introduction d'un troisième élément au problème d'optimisation que les agents résolvent, en introduisant un adversaire. L'adversaire est de même nature que l'agent RL mais il est entraîné à suggérer des actions qui imitent celles de l'acteur ou qui vont à l'encontre des contraintes de notre problème. Il est représenté par une certaine distribution de politique moyenne avec laquelle l'acteur doit différencier son comportement en maximisant sa divergence avec celle-ci, encourageant finalement l'acteur à mieux explorer dans les tâches où une exploration efficace constitue la difficulté majeure, ou à prendre des décisions de façon moins risquée.
Fichier principal
Vignette du fichier
These_FLET-BERLIAC_Yannis.pdf (26.16 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03526401 , version 1 (16-11-2021)
tel-03526401 , version 2 (14-01-2022)

Identifiants

  • HAL Id : tel-03526401 , version 2

Citer

Yannis Flet-Berliac. Sample-efficient deep reinforcement learning for control, exploration and safety. Machine Learning [cs.LG]. Université de Lille, 2021. English. ⟨NNT : 2021LILUB009⟩. ⟨tel-03526401v2⟩
399 Consultations
282 Téléchargements

Partager

Gmail Facebook X LinkedIn More