Towards Vygotskian Autotelic Agents : Learning Skills with Goals, Language and Intrinsically Motivated Deep Reinforcement Learning

Cédric Colas

Résumé

Building autonomous machines that can explore large environments, discover interesting interactions and learn open-ended repertoires of skills is a long-standing goal in artificial intelligence. Inspired by the remarkable lifelong learning of humans, the field of developmental machine learning aims at studying the mechanisms enabling autonomous machines to self-organize their own developmental trajectories and grow their own repertoires of skills. This research makes steps towards that goal.Reinforcement learning methods (RL) train learning agents to control their environment by maximizing future rewards and, thus, seem adapted to our purpose. Although it achieved impressive results in the last decade---beating humans at video games, chess, go or controlling robotic agents---it falls short of solving our goal. Indeed, RL agents demonstrate low autonomy and open-endedness because they usually target a (small) set of pre-defined tasks characterized by hand-defined reward functions. In this research, we transfer, adapt and extend ideas from a developmental framework called intrinsically motivated goal exploration process (IMGEP) to the RL setting. The resulting framework builds on goal-conditioned RL techniques to design autotelic RL agents: agents that are intrinsically motivated to represent, generate, pursue and master their own goals as a way to grow repertoires of skills.The efficient acquisition of open-ended repertoires of skills further requires agents to creatively generate novel goals out of the domain of known effects (creative exploration), to readily generalize their understanding of known skills to similar ones (systematic generalization), and to compose known skills to form new ones (composition). Inspired by developmental psychology, we propose to use language as a cognitive tool to support such properties.We organize the manuscript around these two notions: goals and language. The first part focuses on goals. It covers foundational concepts and related work on intrinsic motivations, reinforcement learning and developmental robotics before introducing our framework, goal-conditioned intrinsically motivated goal exploration process (GC-IMGEP), the intersection of RL and IMGEPs. Building on this framework, we present three computational studies of the properties of autotelic agents. We first show that we can use autotelic exploration to solve external hard-exploration tasks (study 1: GEP-PG and 2: ME-ES). We then move on to reward-free environments and propose CURIOUS, an autotelic agent that targets a diversity of goals, transfers knowledge across skills and organizes its own learning trajectory by pursuing goals associated with high learning progress (study 3).The second part focuses on language. Inspired by the pioneering work of Vygotsky and others, we first discuss existing communicative and cognitive uses of language for goal-directed artificial agents. Language facilitates human-agent communications, abstraction, systematic generalization, long-horizon control, but also creativity and mental simulations. In two subsequent computational studies, we propose to implement these two last cognitive uses of language. IMAGINE uses language both to learn goal representations from social interactions (communicative use) and to imagine out-of-distribution goals used to drive its creative exploration and enhance systematic generalization (cognitive use). In our last study, LGB trains a language-conditioned world model to generate a diversity of possible futures conditioned on linguistic descriptions. This leads to behavioral diversity and strategy-switching behaviors.

Concevoir des machines autonomes qui explorent des environnements larges, découvrent des interactions pertinentes et développent des répertoires de comportements non-bornés est un des défis majeurs en intelligence artificielle. Inspiré par le remarquable apprentissage de l'humain, l'apprentissage machine développemental étudie les mécanismes permettant aux machines d'auto-organiser leurs trajectoires développementales et de développer des répertoires de comportements. Notre recherche progresse vers ce but.L’apprentissage par renforcement (RL) entraîne des agents à contrôler leur environnement de sorte à maximiser des récompenses et apparaît donc adapté à notre objectif. Malgré ses récent succès---battre l’humains à certains jeux vidéos, aux échecs, au go ou contrôler des robots---le RL ne saurait être suffisant : les agents RL sont peu autonomes et montrent des comportements bornés car ils s'attaquent à de (petits) sets de tâches pré-définies, caractérisées par des fonctions de récompenses pré-codées. Dans cette recherche, nous proposons de transférer, d'adapter et d'étendre des idées issues d'une approche de robotique développementale appelée processus d'exploration de buts intrinsèquement motivés (IMGEP) aux méthodes de RL. Notre nouveau cadre algorithmique étend les techniques de RL conditionné par des buts pour développer des agents RL autotéliques: des agents intrinsèquement motivés à représenter, générer, poursuivre et maîtriser leurs propres buts en vue de développer des répertoires de comportements.L'acquisition efficace de répertoires de comportements non-bornés nécessite une génération créative de buts en dehors de la distribution des effets connus (exploration créative), la généralisation de comportements connus à des comportements nouveaux (généralisation systématique) et la capacité à composer des comportements connus pour en former de nouveaux (composition). Inspiré par la psychologie développementale, nous proposons d'utiliser le langage comme un outil cognitif de sorte à soutenir ces propriétés.Ce manuscrit est construit autour de deux notions: les buts et le langage. La première partie se concentre sur les buts. Elle couvre les concepts fondamentaux et la littérature associée traitant des motivations intrinsèques, de l'apprentissage par renforcement et de la robotique développementale avant d'introduire notre framework: les processus d'exploration de buts intrinsèquement motivés avec des politiques conditionnées par des buts (GC-IMGEP). À partir de ce cadre, nous présentons trois études computationnelles des propriétés des agents autotéliques. Nous montrons d'abord que l'exploration autotélique peut être utilisée pour résoudre des tâches nécessitant une importante exploration (étude 1: GEP-PG et 2: ME-ES). Nous proposons ensuite CURIOUS dans un environnement sans récompense: un agent autotélique qui vise une diversité de buts, transfère de l'information entre compétences et organise sa trajectoire d'apprentissage en poursuivant les buts liés à de forts progrès (étude 3).La seconde partie se concentre sur le langage. Inspirés par les travaux de Vygostky et d'autres, nous discutons des utilisations des capacités communicatives et cognitives du langage dans le cadre d'agents dirigés par des buts. Le langage facilite les interactions humain-agent, l'abstraction, la généralisation systématique, le contrôle à long horizon temporel, mais aussi la créativité et la simulation mentale. Dans les deux études computationnelles qui suivent, nous implémentons ces deux dernières capacités. IMAGINE utilise le langage pour apprendre des représentations de buts (usage communicatif) et pour imaginer de nouveaux buts de sorte à diriger une exploration créative (usage cognitif). Dans notre dernière étude, LGB entraîne un modèle du monde à générer une diversité de futurs possibles à partir de descriptions linguistiques. Cela mène à une plus grande diversité comportementale et à des comportements de changement de stratégie.

Towards Vygotskian Autotelic Agents : Learning Skills with Goals, Language and Intrinsically Motivated Deep Reinforcement Learning

Agents Autotéliques Vygostkiens : Buts, Langage et Apprentissage Intrinsèquement Motivé

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager