Learning to interact, interacting to learn action-centric reinforcement learning

Mathieu Seurin

Résumé

In this Ph.D. thesis, we study sequential decision making (a.k.a Reinforcement Learning or RL) in artificial intelligence, focusing on the notion of *action* and *interactivity*. In reinforcement learning, an agent receives information from its environment and acts. The goal is to maximize a constraint called ``the reward''. Planning (Anticipating long-term consequences and higher rewards) and Exploration (How to gather as much information as possible in a minimal time) are central to this topic.The term ``Reinforcement Learning'' comes from psychology, and ever since, Artificial Intelligence and Cognitive Science have borrowed from each other. Cognitive study inspired early AI pioneers, and computers' modularity influenced cognitivism. Then, Embodied Cognition took over, putting interaction with the world at the center of mental developments. We study reinforcement learning with a similar stance, putting actions at the heart of this thesis. Actions define the interface between the agent and its environment. In robotic control, the actions are the motor's forces. In a video game, actions are the controller's button. We call those differents forms textit{action space}Firstly, we propose an action space taxonomy and analyze challenges posed by each type. For example "How reinforcement learning algorithm stands when dealing with thousands of action ?'' or "Is it easy to detect and ignore useless actions or generalize to unseen ones ?''We then study how we can modify current algorithms to take into account action knowledge. The first setting considered is safe RL, where an agent acts under safety constraints. We show that when the environment prevents the agent from doing specific actions, taking into account this signal is essential to learn faster.Secondly, we propose an exploration algorithm nudging the agent to interact as much as possible with the environment.The third part of the manuscript tackles action abstractions (sequences of interactions representing more general goals). For example, Natural Language can convey multiple sub-task by describing what the agent must accomplish. We propose an algorithm reducing sample complexity when dealing with a high number of instructions in natural language.The last chapter is more general and formalizes how we can turn supervised setup into interactive ones. By reframing a speaker recognition task into a multi-turn game, we can increase the sample efficiency and reduces the number of words needed.

Dans cette thèse de doctorat, nous étudions l'apprentissage séquentiel (dit ``par renforcement'') en intelligence artificielle, plus particulièrement les notions d'actions et d'interactivité. En apprentissage par renforcement, un agent reçoit des informations sur son environnement et agit en conséquence. Le but étant de maximiser une quantité appelée récompense. La planification (quelles sont les conséquences à long terme des actions effectuées et quelle quantité de récompenses peux-t-on en tirer) et l'exploration (comment récupérer un maximum d'informations en un minimum de temps) sont au coeur de cette discipline.L'intelligence artificielle et les sciences cognitives ont grandi de concert depuis les années 50. L'étude de la cognition a nourri les pionniers de l'intelligence artificielle et le courant cognitiviste s'inspirait de la modularité d'un ordinateur pour expliquer le fonctionnement du cerveau. Depuis, le courant cognitiviste a laissé place à la cognition incarnée. Au lieu de considérer l'intelligence comme un ensemble de fonctions abstraites, les représentations mentales sont construites et guidées par les interactions avec le monde.Nous souhaitons analyser les algorithmes d'apprentissage par renforcement avec ce même regard, en replaçant les intéractions au centre de notre analyse. Les actions définissent l'interface entre l'agent apprennant et l'environnement: Pour le contrôle d'un robot, les actions correspondent aux forces exercées par les moteurs. Dans un jeu vidéo, elles correspondent aux différents boutons que l'on peut presser. On appelle ces différentes formes d'actions possibles: espace d'actions.Dans un premier temps, nous proposons une taxonomie des différents espaces d'actions et les problèmes qu'ils posent. Par exemple : "Que se passe-t-il lorsqu'un agent doit choisir parmi plusieurs milliers d'actions ?'' ou "Comment ignorer des actions inutiles ou généraliser à des actions jamais vues ?''Dans un deuxième temps, nous montrons qu'en intégrant des connaissances sur les actions, on peut améliorer la vitesse d'apprentissage. La première application considérée est l'apprentissage robuste, dans lequel la sécurité est tout aussi importante que la performance. Lorsque l'environnement nous empêche de faire certaines actions par sécurité, la prise en compte de cette information permet d'apprendre plus vite.Le deuxième cas porte sur l'exploration dans un environnement contenant multitudes d'objets à utiliser pour résoudre des problèmes type labyrinthe. Nous montrerons que pousser un agent à chercher les actions clefs qui intéragissent avec les objets permet une meilleure exploration que les autres méthodes de l'état de l'art.La troisième partie de ce manuscrit porte sur l'apprentissage multi-but, c'est à dire apprendre une multitude de séquences d’actions, chacune accomplissant une tâche différente. Nous nous focalisons sur l'apprentissage d'instructions en langage naturel. Le langage simplifie la définition d'une multitude de sous-tâches en décrivant simplement ce que l'agent doit accomplir. Nous proposons un algorithme permettant de réduire la complexité d'apprentissage lorsqu'un grand nombre de buts doit être accomplis.Enfin, la dernière partie porte sur la transformation de tâche non-interactive (supervisée) en tâche interactive. Rendre l'agent actif dans son apprentissage permet d'élargir les possibilités de l'apprentissage supervisé en lui permettant de choisir lui-même les informations intéressantes. Nous montrons qu'en changeant la définition d'une tâche de reconnaissance de locuteur, on réduit le temps d'apprentissage et le nombre de mots nécessaire à la reconnaissance.

Learning to interact, interacting to learn action-centric reinforcement learning

Apprendre à interagir, interagir pour apprendre, apprentissage par renforcement centré sur les actions

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager