Multi-view inpainting, segmentation and video blending, for more versatile Image Based Rendering - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Thèse Année : 2019

Multi-view inpainting, segmentation and video blending, for more versatile Image Based Rendering

Complétion d'image, segmentation et mixture de vidéos dans un contexte multi-vue, pour un rendu basé image plus polyvalent

Résumé

Creating realistic images with the traditional rendering pipeline requires tedious work, starting with complex manual work to create 3D models, materials, and lighting, and then computationally expensive realistic rendering. Such a process requires both skilled artists and significant computing power. Image Based Rendering (IBR) is an alternative way to create high quality content by only using an unstructured set of photos as input. IBR allows casual users to create and render realistic and immersive scenes in real time, for applications such as virtual tourism, cultural heritage, interactive mapping, urban and architecture planning, and movie production. Existing IBR methods produce generally good image quality, but still suffer from limitations. First, many types of scene content produce visually-unappealing rendering artifacts, because the underlying scene representation is insufficient, e.g, for reflective surfaces, thin structures, and dynamic content. Second, scenes are often captured with real- world constraints which require editing to meet the user requirements, yet existing IBR methods do not allow this. To address editing, we propose to extend single image inpainting to allow sparse multiview object removal. Such inpainting requires to hallucinating both color and geometry behind the object to be removed in a multi-view coherent fashion. Our method reduces rendering artifacts by removing objects which are not well represented by IBR methods or by moving well represented objects in the scene. To address rendering quality, we enlarge the scope of casual IBR in two different ways. First we deal with the case of thin structures, which are extremely challenging for multi-view 3D reconstruction and represent a major limitation for IBR in an urban context. We propose a pipeline which locates and renders thin structures supported by simple surfaces. We introduce both a multi-view segmentation algorithm for thin structures, and a rendering method which extends traditional IBR with transparency information. Second, we propose an approach to extend IBR to dynamic contents. By focusing on time-dependent stochastic textures, we preserve both the casual capture setup and the free-viewpoint navigation of the rendered scene. Our key insight is to use a video representation which is adapted to video looping and spatio-temporal blending. Our results for all methods show improved visual quality compared to previous solutions on a variety of input scenes.
La création d'images réalistes avec le processus classique de rendu demande un travail manuel considérable, de la génération de modèles 3D à la gestion de l'illumination. Cela demande à la fois des artistes experts modeleurs 3D mais également des machines avec une certaine puissance de calcul. Se basant uniquement sur des photos prises par un utilisateur lambda, le rendu basé image (IBR) est un moyen alternatif de rendre une scène en temps réel, de manière immersive et réaliste. Ce type de rendu possède des applications dans des domaines tels que le tourisme virtuel, la préservation du patrimoine, la cartographie interactive, la planification urbaine et architecturale, ainsi que la production de films. De nombreuses méthodes efficaces de rendu base image ont été proposées ces dernières années, mais elles possèdent néanmoins certaines limitations. Tout d'abord, bien que ces méthodes permettent effectivement de générer des images de bonne qualité, il est difficile de pouvoir modifier le contenu de la scène. En effet, la capture d'une scène réelle s'accompagne des contraintes liées a l'environnement au moment de la prise de photos, qui peut ne pas correspondre totalement aux exigences de l'utilisateur. Ensuite, ces méthodes dépendent grandement de la qualité de la représentation géométrique sous-jacente des scènes. En conséquence, des scènes contenant par exemple des surfaces réflectives, des structures fines ou bien du contenu dynamique, produisent des artefacts visuels important. Afin de répondre à la première limitation, nous proposons d’étendre la complétion d’image a un contexte multi-vue non structuré, permettant ainsi le retrait d’objet d’une scène. Ce genre de complétion demande non seulement d’halluciner l’apparence, mais également la géométrie de ce qui se trouve derrière l’objet à retirer. Notre méthode réduit les artefacts de rendu en supprimant les objets mal représentés par l’IBR, et permet également de déplacer des objets correctement rendus. Nous répondons à la deuxième limitation en élargissant le spectre des scènes traitable en IBR, et ce de deux manières. Tout d’abord, nous nous focalisons sur le cas des structures fines qui sont un cas particulièrement compliqué pour la reconstruction multi-vue 3D, et qui représente une importante limitation pour l’IBR dans un contexte urbain. Nous proposons une méthode qui extrait puis rend les structures fines dont la surface sous-jacente est simple. Nous introduisons un algorithme de segmentation multi-vue pour les structures fines, ainsi qu’une méthode de rendu qui étend le rendu IBR avec de l’information de transparence. Enfin, nous proposons une première approche pour étendre l’IBR à des contenus dynamiques. En nous focalisant sur des effets dynamiques stochastiques, nous sommes capables de préserver à la fois une acquisition facile à mettre en œuvre et une navigation libre dans la scène rendue. Notre idée principale est d’utiliser une représentation des vidéos adaptée à les mélanger spatio-temporellement et à les faire boucler. Les résultats de chacune de nos méthodes montrent une amélioration de la qualité visuelle de rendu sur des scènes variées.
Fichier principal
Vignette du fichier
thesis _thonat_small.pdf (61.11 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

tel-02417599 , version 1 (18-12-2019)
tel-02417599 , version 2 (02-08-2020)

Identifiants

  • HAL Id : tel-02417599 , version 1

Citer

Theo Thonat. Multi-view inpainting, segmentation and video blending, for more versatile Image Based Rendering. Graphics [cs.GR]. Université Côte d'Azur, 2019. English. ⟨NNT : ⟩. ⟨tel-02417599v1⟩
358 Consultations
23 Téléchargements

Partager

Gmail Facebook X LinkedIn More