Contributions à la précision et à la robustesse de la localisation visuelle dans un monde d'objets

Matthieu Zins

Résumé

Visual localization is a well-known problem in computer vision, which has many applications, for example, in robotics for autonomous navigation (robots, drones, vehicles) or in augmented reality. It consists in estimating the position and orientation of the camera in a scene. Classical approaches are generally based on the geometric structure of the scene and seek to match 2D keypoints, detected in the images, with 3D points of the scene. This matching is however a complex problem in practice, especially because it relies on local information, extracted in the neighborhood of the keypoints. Depending on the size of the scene, these methods can be very computationally expensive. They are also sensitive to large changes in viewpoints, to degraded visual conditions and fail in weakly textured areas. In this thesis, we are interested in using objects as semantic landmarks for visual positioning. Thanks to recent advances, especially with deep learning, it is possible to detect objects very robustly in images, from almost any viewpoint. We have adopted a lightweight modeling of objects as ellipsoids and want to leverage this to improve the robustness of visual localization. As a first step, we sought to improve the detection of objects by ellipsoids, which was one of the main sources of inaccuracy in the pose computation. Thus, we replaced the ellipses inscribed in the detection boxes aligned with the image axes by oriented ellipses consistent with the projection of the ellipsoidal models of the objects. Our experiments have shown that our approach significantly improves the accuracy of existing object-based methods and outperforms the robustness of point-based methods. Secondly, we proposed a refinement step of the camera pose by minimizing a reprojection error, which allows us to take into account all the detected objects in the image. Unlike a distance between points, establishing a cost between ellipses is not trivial. We analyzed different metrics and proposed a new formulation based on level sets. Our experiments highlighted its good convergence properties and a better handling of partially visible objects in the image. We have also shown that this refinement step allows us to considerably improve the analytical solution of the object-based pose calculation. Finally, we integrated this concept of object into SLAM and developed a system capable of mapping objects on the fly. The interest is twofold, with the possibility to use them as relocalization landmarks and with the introduction of semantic information in the map, offering a better scene understanding. Our system makes objects and points collaborate and benefits from their respective advantages, robustness and accuracy. We have shown, in our experiments, that this allows us to significantly extend the relocalization capability of our system.

La localisation visuelle est un problème bien connu en vision par ordinateur, qui a de nombreuses applications, par exemple, en robotique pour la navigation de systèmes autonomes (robots, drones, véhicules) ou en réalité augmentée. Elle consiste à estimer la position et l'orientation de la caméra dans une scène. Les approches classiques reposent généralement sur la structure géométrique de la scène et cherchent à mettre en correspondance des points d'intérêt 2D, détectés dans les images, avec des points 3D de la scène. Cet appariement est cependant un problème complexe en pratique, notamment parce qu'il repose sur de l'information locale, extraite dans un voisinage autour des points d'intérêt. Selon la taille de la scène, ces méthodes peuvent être très coûteuses en calcul. Elles sont également sensibles à des changements importants de points de vue, à des conditions visuelles dégradées et échouent dans des zones faiblement texturées. Dans ce travail de thèse, nous nous sommes intéressés à l'utilisation des objets comme balises sémantiques pour le positionnement visuel. Grâce aux avancées récentes, notamment avec l'apprentissage profond, il est possible de détecter des objets de manière très robuste dans les images, de pratiquement n'importe quel point de vue. Nous avons adopté une modélisation légère des objets sous la forme d’ellipsoïdes et nous voulons en tirer profit pour améliorer la robustesse de la localisation visuelle. Dans un premier temps, nous avons cherché à améliorer la détection des objets par des ellipses, qui constituait l'une des principales sources d'imprécision du calcul de pose. Ainsi, nous avons remplacé les ellipses inscrites dans les boîtes de détection alignées avec les axes de l'image par des ellipses orientées cohérentes avec la projection des modèles ellipsoïdaux des objets. Nos expériences ont montré que notre approche améliore nettement la précision des méthodes existantes basées sur les objets et surpasse la robustesse des méthodes par points. Dans un second temps, nous avons proposé une étape de raffinement de la pose de la caméra par la minimisation d'une erreur de reprojection des objets, qui permet de prendre en considération tous les objets détectés dans l'image. Contrairement à une distance entre des points, établir un coût entre des ellipses n'est pas trivial. Nous avons analysé différentes métriques et nous avons proposé une nouvelle formulation basée sur des ensembles de niveaux. Nos expériences ont mis en avant ses bonnes propriétés de convergence et de gestion des objets partiellement visibles dans l'image. Nous avons également montré que cette étape de raffinement permet d'améliorer considérablement la solution analytique du calcul de pose basé sur les objets. Enfin, nous avons intégré ce concept d'objet dans un SLAM et développé un système capable de cartographier les objets à la volée. L'intérêt est double, avec la possibilité de les utiliser comme balises de relocalisation et avec l'ajout d'une information sémantique à la carte offrant une meilleure compréhension de la scène. Notre système fait collaborer les objets et les points et bénéficie de leurs avantages respectifs, la robustesse et la précision. Nous avons montré, dans nos expériences, que cela permet d'étendre considérablement la capacité de relocalisation de notre système.

Contributions to the accuracy and robustness of visual localization in a world of objects

Contributions à la précision et à la robustesse de la localisation visuelle dans un monde d'objets

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager