Multi-view image-based editing and rendering through deep learning and optimization

Julien Philip

Résumé

Computer-generated imagery (CGI) takes a growing place in our everyday environment. Whether it is in video games or movies, CGI techniques are constantly improving in quality but also require ever more qualitative artistic content which takes a growing time to create. With the emergence of virtual and augmented reality, often comes the need to render or re-render assets that exist in our world. To allow widespread use of CGI in applications such as telepresence or virtual visits, the need for manual artistic replication of assets must be removed from the process. This can be done with the help of Image-Based Rendering (IBR) techniques that allow scenes or objects to be rendered in a free-viewpoint manner from a set of sparse input photographs. While this process requires little to no artistic work, it also does not allow for artistic control or editing of scene content.In this dissertation, we explore Multi-view Image Editing and Rendering. To allow casually captured scenes to be rendered with content alterations such as object removal, lighting edition, or scene compositing, we leverage the use of optimization techniques and modern deep-learning. We design our methods to take advantage of all the information present in multi-view content while handling specific constraints such as multi-view coherency.For object removal, we introduce a new plane-based multi-view inpainting algorithm. Planes are a simple yet effective way to fill geometry and they naturally enforce multi-view coherency as inpainting is computed in a shared rectified texture space, allowing us to correctly respect perspective. We demonstrate instance-based object removal at the scale of a street in scenes composed of several hundreds of images.We next address outdoor relighting with a learning-based algorithm that efficiently allows the illumination in a scene to be changed, while removing and synthesizing cast shadows for any given sun position and accounting for global illumination. An approximate geometric proxy built using multi-view stereo is used to generate illumination and shadow related image buffers that guide a neural network. We train this network on a set of synthetic scenes allowing full supervision of the learning pipeline. Careful data augmentation allows our network to transfer to real scenes and provides state of the art relighting results. We also demonstrate the capacity of this network to be used to compose real scenes captured under different lighting conditions and orientation.We then present contributions to image-based rendering quality. We discuss how our carefully designed depth-map meshing and simplification algorithm improve rendering performance and quality of a new learning-based IBR method.Finally, we present a method that combines relighting, IBR, and material analysis. To enable relightable IBR with accurate glossy effects, we extract both material appearance variations and qualitative texture information from multi-view content in the form of several IBR heuristics. We further combine them with path-traced irradiance images that specify the input and target lighting. This combination allows a neural network to be trained to implicitly extract material properties and produce realistic-looking relit viewpoints. Separating diffuse and specular supervision is crucial in obtaining high-quality output.

Les images de synthèse (CGI) prennent une place grandissante dans notre environnement. Que ce soit dans les jeux vidéos ou les films, leur qualité ne cesse de s’accroître nécessitant la création fastidieuse de contenus artistiques. L’émergence de la réalité virtuelle et augmentée, entraine la nécessité de rendre des environnements existants. Pour permettre l’utilisation généralisée des images de synthèse dans des applications telles que la télé-présence ou les visites virtuelles, la digitalisation manuelle des contenus par des artistes se doit d’être évitée. Une des solutions peut provenir des techniques de Rendu à Base d’Images (IBR) qui permettent de rendre des scènes, depuis un point de vue libre, à partir d’un ensemble de photographies parcimonieux. Bien que ces méthodes ne nécessitent que peu de travail artistique, elles n’autorisent cependant pas le contrôle ou l’édition du contenu.Dans cette thèse, nous explorons l’Edition et le Rendu d’Images Multi-vues. Afin de permettre à des scènes, capturées avec le moins de contraintes possibles, d’être rendues avec des altérations telles que la suppression d’objets, l’édition d’éclairage, ou la composition de scènes, nous exploitons les techniques d’optimisation et d’apprentissage profond. Nous concevons nos méthodes afin qu’elles tirent pleinement avantage de l’information présente dans le contenu multi-vues, tout en en respectant ses contraintes spécifiques.Pour la suppression d’objets, nous introduisons un algorithme de remplissage automatique, multi-vues cohérent, utilisant une représentation planaire. Les plans sont des objets simples et efficaces pour combler la géométrie, dont la cohérence multi-vues émerge naturellement lorsque le remplissage est effectué dans un espace texture rectifié et partagé. Ils permettent aussi le respect des effets de perspective. Nous démontrons la capacité d’enlever des objets, à grande l’échelle, dans des scènes contenant plusieurs centaines d’images.Nous traitons ensuite le problème du rééclairage des scènes extérieures par une méthode d’apprentissage profond. Elle permet de modifier l’illumination, en enlevant et synthétisant les ombres portées, pour une position du soleil quelconque, tout en tenant compte des variations d’illumination globale. Une représentation géométrique approximative, reconstruite en utilisant la stéréo multi-vues, est utilisée pour générer des images tampons d’illumination et d’ombres qui guident un réseau de neurones. Nous entrainons ce réseau sur un ensemble de scènes synthétiques, permettant une supervision complète. Une augmentation des données minutieuse permet à notre réseau de généraliser aux scènes réelles et de produire l’état de l’art en terme de résultats. Nous démontrons ensuite, la capacité du réseau à être utilisé pour composer des scènes réelles, capturées dans des conditions d’orientation et d’éclairages différentes. Nous présentons ensuite des contributions à la qualité de l'IBR. Nous introduisons un algorithme de maillage de cartes de profondeur et de leur simplification. Nous démontrons son impact sur la qualité et les performances d’une nouvelle méthode d’IBR utilisant l’apprentissage.Enfin, nous introduisons une méthode qui combine rééclairage, IBR, et analyse de matériaux. Afin de permettre un rendu à base d’images, rééclairable et tenant compte des effets spéculaires, nous extrayons du contenu multi-vues les variations d’apparence des matériaux et l’information de texture haute résolution, sous la forme de plusieurs rendus IBR heuristiques. Nous les combinons ensuite avec des rendus d’irradiance, obtenus par lancer de rayons, qui spécifient les conditions d’éclairage initiales et désirées. Cette combinaison permet d’entrainer un réseau de neurones à extraire implicitement les propriétés des matériaux et à produire des points de vue rééclairés réalistes [...]

Multi-view image-based editing and rendering through deep learning and optimization

Édition et rendu à base d’images multi-vues par apprentissage profond et optimisation

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager