Learning representations for visually-guided robotics

Robin Strudel

Résumé

The goal of this thesis is to develop models, representations and learning algorithms for the automatic acquisition of visually-guided robotic skills from demonstrations and for object localization. We first introduce a method to acquire robotic skills from demonstrations by learning a vocabulary of basic skills with behavioral cloning. Skills are then combined with a planning policy learned with reinforcement learning in order to perform more complex tasks. We show successful transfer of multiple tasks from simulation to a real robot by using a method developed in this thesis optimizing a sequence of data augmentations on synthetic data to solve a proxy object localization task on real data. We then focus on sensor-based motion planning and propose an approach leveraging the knowledge of surrounding obstacles observed with a camera to accelerate the finding of collision-free paths. The learned representation generalizes across a large variety of objects, and the planning policy can handle new environments with dynamically moving obstacles. While visually-guided policies learn task-centric image representations from control supervision, another line of work consists in learning object-centric representations that can be plugged into classical robotics methods. Object-centric approaches rely on a segmentation backbone for which we propose the following contributions. Towards this goal we propose a transformer-based semantic segmentation model that leverages global context of the image at every stage of the model and show state-of-the-art results when compared to convolution-based approaches on classical benchmarks. Our segmentation model presents two limitations, it localizes a pre-defined set objects and requires dense annotations to be trained, which limits its scalability to large datasets. To address these limitations, we propose a method that segments an open set of visual concepts defined by natural language and does not require pixel-level supervision. Our method learns to localize objects by using image-level labels such as the presence of an object in the image

Le but de cette thèse est de développer des modèles, représentations et méthodes d’apprentissage pour l’acquisition automatique de compétences robotiques guidées par la vision à partir de démonstrations, ainsi que la localisation d’objets. Nous présentons tout d’abord une méthode pour l’acquisition de compétences robotiques à partir de démonstrations. Un vocabulaire de compétences élémentaires est appris avec de l’apprentissage de politiques par imitation. Les compétences sont ensuite combinées avec une politique de planification apprise par renforcement afin de réaliser des taches plus complexes. Nous montrons sur plusieurs taches que la politique entrainée en simulation transfère sur un robot réel. Pour ce faire, nous avons développé une méthode qui optimise des séquences d’augmentations de données synthétiques afin de résoudre une tache auxiliaire de localisation d’objets sur des données réelles. Nous proposons ensuite une méthode de planification de mouvements à partir de capteurs. Notre méthode exploite la connaissance des obstacles environnants pour accélérer la recherche de chemins sans collision. La représentation apprise généralise sur une grande variété d’obstacles et la politique de planification fonctionne sur de nouveaux environnements avec des obstacles se déplaçant de manière dynamique. Alors que les politiques guidées par la vision apprennent des représentations visuelles à partir du contrôle, une autre approche consiste à apprendre des représentations visuelles centrées sur les objets à manipuler. Une fois que la localisation d’un objet est estimée, elle est ensuite intégrée à des contrôleurs robotiques classiques. Les représentations centrées sur les objets reposent sur des méthodes de segmentation que nous proposons d’améliorer avec les contributions suivantes. Nous introduisons une méthode de segmentation sémantique basée sur les transformers qui exploite l’information globale contenue dans une image à toutes les couches du modèle. Nous obtenons des résultats état de l’art et montrons l’avantage de notre modèle comparé à des réseaux de convolution. Notre méthode de segmentation présente deux limitations, le modèle localise des objets qui sont prédéfinis et son entrainement nécessite des images annotées pour chaque pixel. Pour remédier à ces limitations, nous présentons une méthode qui segmente des objets définis à partir d’une description texte et ne nécessite pas de supervision au niveau des pixels. Notre méthode apprend à localiser des objets en utilisant des annotations au niveau de l’image uniquement comme la présence ou l’absence d’un objet dans l’image.

Learning representations for visually-guided robotics

Apprentissage de représentations visuelles pour la robotique

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager