Reconstruction de formes 3D à partir de plusieurs vues

Pierre Zins

Résumé

Recent technological progress in terms of hardware and software have given rise to a growing need for 3D content that can be used in several domains. In this thesis, we focus on geometric 3D content creation from multi-view 2D image data. Although specialized hardware such as depth sensors can help to capture 3D data, the prevailing strategy is to use only RGB images as input. Accurate 3D models captured from real data are useful in a wide variety of domains such as the entertainment industry to incorporate them in movies or video games, cultural heritage to preserve fragile objects or scenes, healthcare for diagnostics or virtual surgical simulations and virtual and augmented reality to provide immersive and realistic experiences for novel applications such as telepresence or virtual try-on. As seen with all these different applications, the 3D reconstruction task can take place in different contexts with variable size of the reconstructed content and different numbers of input images. In this thesis, we explore and contribute to two distinct scenarios.First, we consider the reconstruction of dressed humans from a limited number of input views. This scenario is particularly interesting as digital humans are at the center of a large majority of visual content that we have access to today and the limited number of input views increases the applicability of the method with a simplified capture configuration. However, in such context, the problem becomes very challenging and ill-posed because redundant photometric information within the input images is insufficient to infer a complete 3D model. In this context, we improve over the state-of-the-art with a new data-driven method built on top of a neural implicit representation that proposes accurate and spatially consistent 3D reconstructions of dressed humans from only a few sparse input views. We demonstrate in our experiments a higher reconstruction accuracy than existing methods, and even a good generalization capability to real data while training on synthetic data only. Despite these impressive results, reconstructing complete and accurate models from only a limited number of views remains very challenging and methods that employ more inputs views are still very relevant.We therefore consider such context in a second contribution which involves dense input viewpoints to reconstruct the visible surface. In this case, photometric redundancy is leveraged to estimate the surface position and the main challenges concern the 3D representation which must capture fine 3D details and the appearance matching in different views that can be difficult due to non-Lambertian surfaces, noise from the cameras or visibility issues. In particular, we contribute with a novel efficient strategy that combines the benefits of Multi-View Stereopsis (MVS) methods that can yield pixel wise geometric accuracy with local depth predictions along viewing rays and the volumetric integration used in recent differentiable rendering-based reconstruction methods. In our experiments we demonstrate more accurate surface estimations and a good generalization ability of the method.Finally, in a third contribution we leverage the first two contributions and investigate how to incorporate multi-view constraints in the data-driven reconstruction method that we developed. In particular, this is possible when the input images share some redundancy and improves the generalization ability of the method, increases the level of details that can be captured and offers the possibility to use higher resolution images as input.

Les récents progrès technologiques d'un point de vue logiciel et matériel ont donné naissance à un besoin croissant de contenu 3D pouvant être utilisé dans plusieurs domaines. Dans cette thèse, nous nous concentrons sur la création de contenu 3D géométrique à partir de données d'images 2D multi-vues. Bien que du matériel spécialisé, tel que des capteurs de profondeur, puisse aider à capturer des données 3D, la stratégie dominante consiste à utiliser uniquement des images RGB en entrée. Des modèles 3D précis capturés à partir de données réelles sont utiles dans une grande variété de domaines tels que l'industrie du divertissement pour les films ou jeux vidéo, le patrimoine culturel pour la préservation d'éléments fragiles, la santé pour le diagnostique ou les simulations chirurgicales et la réalité virtuelle et augmentée pour offrir des expériences immersives et réalistes. Ainsi, la tâche de reconstruction peut prendre place dans différents contextes en fonction de la taille du contenu 3D aini que du nombre d'images considérées en entrée. Dans cette thèse, nous explorons et contribuons sur deux scénarios distincts.Tout d'abord, nous explorons la reconstruction 3D complète d'humains et de leur vêtements à partir d'un nombre limité de vues. Ce scénario est particulièrement intéressant puisque l'humain est au centre d'une grande majorité d'applications et qu'un nombre limité de vues facilite la mise en place d'une méthode avec une configuration de capture simplifiée. Cependant, dans un tel contexte le problème devient difficile et mal posé car les informations photométriques redondantes parmi les images d'entrée ne peuvent pas être exploitées seules pour déduire un modèle 3D complet. Dans ce contexte, nous améliorons l'état de l'art avec une nouvelle méthode basée sur un apprentissage et construite sur une représentation neuronale implicite qui propose des reconstructions 3D précises et spatialement cohérentes d'humains à partir de seulement quelques vues éparses en entrée. Nous démontrons dans nos expériences une précision de reconstruction supérieure à celle des méthodes existantes, et même une bonne capacité de généralisation aux données réelles. Malgré ces résultats impressionnants, la reconstruction de modèles complets et précis à partir d'un nombre limité de vues reste très difficile et les méthodes qui utilisent plus de vues d'entrée sont toujours très pertinentes.Nous considérons donc dans une seconde contribution un tel contexte comportant des points de vue d'entrée denses. Dans ce cas, la redondance photométrique est exploitée pour estimer la position de la surface et les principaux défis concernent la représentation 3D qui doit permettre de capturer des détails 3D fins et la correspondance d'apparence dans différentes vues qui peut être difficile en raison de surfaces non-Lambertiennes, du bruit des caméras ou de problèmes de visibilité. En particulier, nous apportons une nouvelle stratégie efficace qui combine les avantages des méthodes de stéréopsie multi-vues (MVS) qui peuvent donner une précision géométrique au niveau du pixel avec des prédictions de profondeur locales le long des lignes de vue et l'intégration volumétrique utilisée dans les récentes méthodes de reconstruction basées sur le rendu différentiable. Dans nos expériences, nous démontrons des estimations de surface plus précises et une bonne capacité de généralisation de la méthode.Enfin, dans une troisième contribution, nous tirons profit des deux premières contributions et étudions comment incorporer des contraintes multi-vues dans la méthode de reconstruction basée sur un apprentissage que nous avons développée. En particulier, cela est possible lorsque les images d'entrée partagent une certaine redondance et permet d'améliorer la capacité de généralisation de la méthode, le niveau de détails qui peut être capturé et offre la possibilité d'utiliser des images de plus haute résolution comme entrée.

3D shape reconstruction from multiple views

Reconstruction de formes 3D à partir de plusieurs vues

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager