Large-Scale Machine Learning and Applications - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Hdr Année : 2017

Large-Scale Machine Learning and Applications

Apprentissage à grande échelle et applications

Résumé

This thesis presents my main research activities in statistical machine learning after my PhD, starting from my post-doc at UC Berkeley to my present research position at Inria Grenoble. The first chapter introduces the context and a summary of my scientific contributions and emphasizes the importance of pluri-disciplinary research. For instance, mathematical optimization has become central in machine learning and the interplay between signal processing, statistics, bioinformatics, and computer vision is stronger than ever. With many scientific and industrial fields producing massive amounts of data, the impact of machine learning is potentially huge and diverse. However, dealing with massive data raises also many challenges. In this context, the manuscript presents different contributions, which are organized in three main topics. Chapter 2 is devoted to large-scale optimization in machine learning with a focus on algorithmic methods. We start with majorization-minimization algorithms for structured problems, including block-coordinate, incremental, and stochastic variants. These algorithms are analyzed in terms of convergence rates for convex problems and in terms of convergence to stationary points for non-convex ones. We also introduce fast schemes for minimizing large sums of convex functions and principles to accelerate gradient-based approaches, based on Nesterov’s acceleration and on Quasi-Newton approaches. Chapter 3 presents the paradigm of deep kernel machine, which is an alliance between kernel methods and multilayer neural networks. In the context of visual recognition, we introduce a new invariant image model called convolutional kernel networks, which is a new type of convolutional neural network with a reproducing kernel interpretation. The network comes with simple and effective principles to do unsupervised learning, and is compatible with supervised learning via backpropagation rules. Chapter 4 is devoted to sparse estimation—that is, the automatic selection of model variables for explaining observed data; in particular, this chapter presents the result of pluri-disciplinary collaborations in bioinformatics and neuroscience where the sparsity principle is a key to build intepretable predictive models. Finally, the last chapter concludes the manuscript and suggests future perspectives.
Ce mémoire présente mes activités de recherche en apprentissage statistique après ma thèse de doctorat, dans une période allant de mon post-doctorat à UC Berkeley jusqu’à mon activité actuelle de chercheur chez Inria. Le premier chapitre fournit un contexte scientifique dans lequel s’inscrivent mes travaux et un résumé de mes contributions, en mettant l’accent sur l’importance de la recherche pluri-disciplinaire. L’optimisation mathématique est ainsi devenue un outil central en apprentissage statistique et les interactions avec les communautés de vision artificielle, traitement du signal et bio-informatique n’ont jamais été aussi fortes. De nombreux domaines scientifiques et industriels produisent des données massives, mais les traiter efficacement nécessite de lever de nombreux verrous scientifiques. Dans ce contexte, ce mémoire présente différentes contributions, qui sont organisées en trois thématiques. Le chapitre 2 est dédié à l’optimisation à large échelle en apprentissage statistique. Dans un premier lieu, nous étudions plusieurs variantes d’algorithmes de majoration/minimisation pour des problèmes structurés, telles que des variantes par bloc de variables, incrémentales, et stochastiques. Chaque algorithme est analysé en terme de taux de convergence lorsque le problème est convexe, et nous montrons la convergence de ceux-ci vers des points stationnaires dans le cas contraire. Des méthodes de minimisation rapides pour traiter le cas de sommes finies de fonctions sont aussi introduites, ainsi que des algorithmes d’accélération pour les techniques d’optimisation de premier ordre. Le chapitre 3 présente le paradigme des méthodes à noyaux profonds, que l’on peut interpréter comme un mariage entre les méthodes à noyaux classiques et les techniques d’apprentissage profond. Dans le contexte de la reconnaissance visuelle, ce chapitre introduit un nouveau modèle d’image invariant appelé réseau convolutionnel à noyaux, qui est un nouveau type de réseau de neurones convolutionnel avec une interprétation en termes de noyaux reproduisants. Le réseau peut être appris simplement sans supervision grâce à des techniques classiques d’approximation de noyaux, mais est aussi compatible avec l’apprentissage supervisé grâce à des règles de backpropagation. Le chapitre 4 est dédié à l’estimation parcimonieuse, c’est à dire, à la séléction automatique de variables permettant d’expliquer des données observées. En particulier, ce chapitre décrit des collaborations pluri-disciplinaires en bioinformatique et neuroscience, où le principe de parcimonie est crucial pour obtenir des modèles prédictifs interprétables. Enfin, le dernier chapitre conclut ce mémoire et présente des perspectives futures.
Fichier principal
Vignette du fichier
hdr_thesis.pdf (7.79 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

tel-01629997 , version 1 (07-11-2017)

Identifiants

  • HAL Id : tel-01629997 , version 1

Citer

Julien Mairal. Large-Scale Machine Learning and Applications. Machine Learning [stat.ML]. UGA - Université Grenoble Alpes, 2017. ⟨tel-01629997⟩
865 Consultations
847 Téléchargements

Partager

Gmail Facebook X LinkedIn More