Driving scene understanding from automotive-grade sensors

Florent Bartoccioni

Résumé

The objective of this thesis is to focus on the short-term prediction (e.g., up to 1s) of some aspects of the environment of a self-driving car. The environment is received as a "scene" by the various vehicle sensors, a visual scene for the cameras, a 3D point cloud for the laser scanners (LiDAR), etc. We aim to predict the evolution of this dynamic scene.Part of the research is dedicated to defining useful prediction tasks (which aspects of the scene to predict, which shape for the prediction?), which representation of the scene to use (voxels, bird's-eye-view, vector, implicit ?), and to evaluate the machine learning tools that will allow us to solve them (which deep architectures, which supervision, which error functions?).The first part of the thesis revisits the depth estimation by monocular camera; a key feature of stand-alone systems that often rely on a single camera or multiple independent cameras. Existing methods use either expensive LiDAR (32 or 64 beams) or camera-only methods which suffer from ambiguities. We propose a new alternative for dense depth estimation by combining a monocular camera with a lightweight, for example 4-beam LiDAR, typical of today's mass-produced automotive laser scanners. Our method is self-supervised and does not suffer from scaling ambiguity or infinite depth problems that camera-only methods suffer from. This method responds to two major challenges. Firstly, it makes it possible to produce, without requiring any ground truth during learning, a rich 3D representation that feeds the forecasting algorithm. Second, our method, as it uses sensors typical of automated cars on the public market, finds direct applications in Advanced Driver Assistance Systems (ADAS).The second part of this thesis focuses on the bird’s-eye-view (BEV) top-view representation for vehicle presence prediction from multiple cameras. Recent work on autonomous driving has largely adopted this intermediate representation of the world for prediction and planning tasks. Real-time prediction of these BEV maps involves non-trivial operations such as multi-camera data extraction as well as merging and projecting into a common top-view grid. This is usually done with error-prone geometric operations (e.g., homography or back-projection from monocular depth estimation) or expensive direct dense mapping between image pixels and pixels in BEV (e.g., with MLP or attention). We present an efficient encoder-decoder model that aggregates information from multiple sensors into a compact, yet rich, collection of latent vectors. This latent representation, after being processed by a series of self-attention blocks, is then projected back into the BEV space.The last part of this thesis deals with the future prediction task. Previous works use the BEV representation to aggregate information from the scene over time and predict its future state. We propose to exploit the architecture presented in the second part and to aggregate the temporal information in this internal, abstract representation of the scene. In effect, our method learns a compact, implicit, latent representation of the world encoding the geometry and dynamics of the scene. Having such a representation allows us to predict the evolution of the scene directly in the latent space in a very efficient way.

L'objectif de cette thèse est de se concentrer sur la prévision à court terme (par exemple, jusqu'à 1s) de certains aspects de l'environnement d'une voiture sans chauffeur. L'environnement est reçu comme une "scène" par les différents capteurs du véhicule, une scène visuelle pour les caméras, un nuage de points 3D pour les scanners laser (LiDAR), etc. Nous visons à prédire l'évolution de cette scène dynamique.Une partie de la recherche est consacrée à définir des tâches de prévision utiles (quels aspects de la scène à prévoir, quelle forme pour la prédiction ?), quelle représentation de la scène à utiliser (voxels, bird’s-eye-view, vectorielle, implicite ?), et à étudier des outils de machine learning qui nous permettraient de les résoudre (quelles architectures profondes, quelle supervision, quelles fonctions d'erreur ?).La première partie de thèse revisite l'estimation de profondeur par caméra monoculaire; une fonctionnalité clé des systèmes autonomes qui reposent souvent sur une seule caméra ou sur plusieurs caméras indépendantes. Les méthodes existantes utilisent soit un LiDAR coûteux (32 ou 64 faisceaux) ou des méthodes de caméra uniquement qui souffrent d'ambiguïtés. Nous proposons une nouvelle alternative d'estimation dense de la profondeur en combinant une caméra monoculaire avec un LiDAR léger, par exemple à 4 faisceaux, typique des scanners laser d'aujourd'hui produits en série pour l’automobile. Notre méthode est auto-supervisée et ne soufre pas d’ambiguïté d'échelle ou de problèmes de profondeur infinie dont souffrent les méthodes utilisant seulement des caméras. Cette méthode répond à deux enjeux majeurs. Dans un premier temps, elle permet de produire, sans aucune vérité de terrain à l’apprentissage, une représentation 3D riche qui alimente l'algorithme de prévision. Deuxièmement, notre méthode, utilisant les capteurs typiques des voitures automatisées du marché publique, trouve des applications directes dans les systèmes d’aides à la conduite (ADAS).La seconde partie de cette thèse se porte sur la représentation en vues de dessus dite en `bird’s-eye-view` (BEV) pour la prédiction de présence de véhicules à partir de plusieurs caméras. Les travaux récents sur la conduite autonome ont largement adopté cette représentation intermédiaire du monde pour les tâches de prédiction et de planification. La prédiction en temps réel de ces cartes BEV implique des opérations non triviales telles que l'extraction de données multi-caméras ainsi que la fusion et la projection dans une grille de vue de dessus commune. Cela se fait généralement avec des opérations géométriques sujettes aux erreurs (par exemple, homographie ou rétroprojection à partir d'une estimation de profondeur monoculaire) ou une cartographie dense directe coûteuse entre les pixels de l'image et les pixels en BEV (par exemple, avec MLP ou attention). Nous présentons un modèle efficace d'encodeur-décodeur qui agrège les informations sur plusieurs capteurs dans une collection compacte, mais riche, de représentations latentes. Ces représentations latentes, après avoir été traitées par une série de blocs d'auto-attention, sont ensuite reprojetées dans l'espace BEV.La dernière partie de cette thèse traite de la tâche de prédiction future. Les travaux précédents utilisent la représentation BEV pour agréger l’information de la scène au cours du temps et y prédire son état futur. Nous proposons d’exploiter l’architecture présentée dans la seconde partie et d’agréger l’information temporelle dans cette représentation interne, abstraite, de la scène. Dans les faits, notre méthode apprend une représentation implicite (latente) du monde qui est compacte, mais qui encode la géométrie et la dynamique de la scène. Disposer d'une telle représentation nous permet de prédire la dynamique de la scène directement dans l'espace latent de manière très efficace.

Driving scene understanding from automotive-grade sensors

Interprétation de scène de conduite à l'aide de capteurs automobile

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager