Human, Motion and Other Priors for Partially-Supervised Recognition

Karteek Alahari

Résumé

This HDR manuscript presents a summary of my research activities after my PhD in 2010. It covers my work in computer vision from the postdoctoral position at Inria Paris to my present researcher position at Inria Grenoble. Understanding visual data automatically—one of the main challenges in computer vision—is having a significant impact in many practical applications, and this phenomenon can only increase with the continuous rise in digital image and video content being generated. My work presented here focuses on a selection of machine learning methods for computer vision problems. The core theme of these methods is the extraction of priors as additional cues for recognition when only partially-supervised data is available. Such partially-supervised data includes cases where only weak annotations are available, e.g., image or video labels describing the objects in a scene, instead of pixel-wise labels for segmenting objects. It also includes scenarios where data is semi-supervised, e.g., the problem of tracking objects in a video sequence when they are annotated only in the first frame. A third example of partially-supervised data is the case of incremental learning, where an existing model is updated with new training data, in the absence of the original annotations used to train the initial model. In addition to discussing approaches to handle all these scenarios, which lack full annotations, we will also demonstrate the importance of priors for a few fully-supervised recognition problems.

Ce manuscrit présente mes activités de recherche en vision artificielle après ma thèse de doctorat soutenue en 2010. Il couvre la période de mon post-doctorat à Inria Paris ainsi que mon activité actuelle de chercheur à Inria Grenoble. Comprendre automatiquement les données visuelles—un des défis clés en vision artificielle—a un impact significatif dans de nombreuses applications pratiques, et ce phénomène ne fait que s’accentuer avec l’augmentation du contenu généré en images et en vidéos. Mon activité de recherche présentée dans ce manuscript se concentre sur une sélection de méthodes en apprentissage statistique pour résoudre les problèmes en vision artificielle. Le thème central de ces méthodes est l’extraction des a priori en tant qu’informations supplémentaires pour la reconnaissance, lorsque seulement des données partiellement supervisées sont disponibles. Ces données incluent des cas dans lesquels des annotations faibles sont disponibles, par exemple des libellés par image ou vidéo décrivant les objets d’une scène, au lieu de libellés par pixels pour segmenter des objets. Il inclut également des scénarios dans lesquels les données sont semi-supervisées, par exemple le problème du suivi des objets dans une séquence vidéo quand ils sont annotés uniquement dans la première image. Un troisième exemple de données partiellement supervisées est le cas de l’apprentissage incrémental, où un modèle existant est mis à jour avec de nouvelles données d’apprentissage, en l’absence des annotations d’origine utilisées pour former le modèle initial. En plus de discuter des approches pour gérer tous ces scénarios, qui manquent d’annotations complètes, nous allons également démontrer l’importance des a priori pour quelques problèmes de reconnaissance entièrement supervisée.

Human, Motion and Other Priors for Partially-Supervised Recognition

Diverses classes d'a priori pour la reconnaissance partiellement supervisée

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager