Scalable and flexible density estimation for complex data distributions - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Thèse Année : 2023

Scalable and flexible density estimation for complex data distributions

Estimation de densité flexible et efficace pour les distributions des données complexes

Résumé

Density estimation is the statistical process of constructing a probabilistic model that represents the distribution of a given dataset.By estimating this distribution, we can better understand the statistics and behavior of our data, enhancing predictions, anomaly detection, and data generation. Density estimation thus forms a crucial step in numerous data analysis and machine learning tasks. Nonetheless, the task of modeling high-dimensional distributions introduces a multitude of challenges. These primarily arise from the need to develop models that exhibit flexibility, which allows for the precise capture of complex high-dimensional patterns, and computational feasibility that becomes particularly essential during the training phase. Within this context, the thesis aims to contribute new theoretical and practical perspectives specifically designed to refine the modeling of probability density functions for high-dimensional, complex data distributions. Furthermore, we propose an innovative theory to improve the quantification of the properties of distributions, such as the thickness of their tails, under statistical assumptions relevant to the machine learning setting.The initial part of this thesis focuses on the examination of deep neural function approximators that are assured to represent probability density functions, regardless of the parameters' values. To achieve this, we introduce AFFJORD, an enhanced version of Continuous Normalizing Flows. This enhancement is made possible through augmentation, inspired by our derivation of the Jacobian of diffeomorphic transformations parameterized by Ordinary Differential Equations (ODEs). Additionally, we expand on the recent advancements in diffusion models, proposing a novel method (PSM) that enhances density estimation while accelerating training, without incurring any drawbacks in terms of inference time or memory consumption. This is achieved by exploiting the independence inherent in modeling the scores at different time points within diffusion models. The result is a flexible, rapidly optimizable, piecewise continuous normalizing flow.In the second part of the thesis, we illustrate that the finiteness of the sampling procedure from marginal distributions negatively impacts the reliability and efficiency of traditional tail estimation methods derived from Extreme Value Theory, such as the Peaks-Over-Threshold approach. To address this challenge, we devise an innovative general theory for estimating the tails of marginal distributions, particularly when there is significant variability between locations of the individual conditional distributions that underlie the marginal. Under certain regularity conditions, we demonstrate that the shape parameter of the marginal distribution corresponds to the maximum tail shape parameter of the family of conditional distributions. This estimation approach is coined as 'cross-tail estimation (CTE)'. We validate cross-tail estimation via a series of experiments conducted on both simulated and real data. Our findings showcase the improved robustness and superior quality of tail estimation in comparison to conventional methodologies and provide evidence of the correlation between overfitting and the thickness of the loss distribution tail.In conclusion, this work offers novel theoretical insights and practical perspectives, specifically tailored to enhance the modeling of probability density functions for high-dimensional, intricate data distributions. Additionally, we propose an innovative theory aimed at refining the quantification of the tail thickness of distributions, under statistical assumptions pertinent to the machine learning context. We conclude this thesis by outlining three potential avenues for future research within this field, which are then followed by our final remarks.
L'estimation de la densité est le processus statistique de construction d'un modèle probabiliste qui représente la distribution d'un ensemble de données. En estimant cette distribution, nous pouvons mieux comprendre les statistiques et le propriétés des données, améliorant les prédictions, la détection d'anomalies, et la génération. L'estimation de la densité est donc une étape cruciale dans nombreuses tâches d'analyse de données et d'apprentissage. Néanmoins, la tâche de modélisation de distributions à haute dimension introduit de nombreux défis. Ces défis proviennent principalement du besoin de développer des modèles qui présentent une flexibilité, permettant la capture précise de motifs complexes à haute dimension, et d'une faisabilité computationnelle qui devient particulièrement essentielle durant la phase d'entraînement. Dans ce contexte, la thèse vise à apporter de nouvelles perspectives théoriques et pratiques, spécialement conçues pour affiner la modélisation des fonctions de densité de probabilité pour des distributions de données complexes à haute dimension. De plus, nous proposons une théorie innovante pour améliorer la quantification des propriétés des distributions, comme l’ampleur de leurs queues.La première partie de cette thèse se concentre sur l’étude des approximations de réseaux de neurones profondes conçues pour représenter des fonctions de densité de probabilité, indépendamment des valeurs des paramètres. Pour cela, nous introduisons AFFJORD, comme extensions de l’état de l'art sur les "normalizing flows". Cette amélioration est rendue possible grâce à une augmentation, inspirée par notre dérivation du jacobien des transformations difféomorphiques paramétrées par des équations différentielles ordinaires (ODE). De plus, nous proposons une nouvelle méthode en s'appuyant sur les modèles de diffusion (PSM) qui améliore l'estimation de la densité tout en accélérant le processus d'entrainement, sans encourir d'inconvénients en termes de temps d'inférence ou de consommation de mémoire. Ceci est réalisé en exploitant l'indépendance inhérente à la modélisation des scores dans les modèles de diffusion. Le résultat est un "normalizing flow" continu par morceaux, flexible et rapidement optimisable.La deuxième partie de la thèse illustre que la procédure d'échantillonnage à partir de distributions marginales a un impact négatif sur la fiabilité et l'efficacité des méthodes traditionnelles d'estimation de queue dérivées de la théorie des valeurs extrêmes. Pour relever ce défi, nous développons une théorie générale innovante pour estimer les queues de distributions marginales, en particulier lorsque la variabilité est significative entre les distributions conditionnelles individuelles. Sous certaines conditions de régularité, nous démontrons que le paramètre de forme de la distribution marginale correspond au paramètre de forme de queue maximum de la famille de distributions conditionnelles.En conclusion, ce travail offre de nouvelles perspectives théoriques et pratiques, spécialement conçues pour améliorer la modélisation des fonctions de densité de probabilité pour des distributions de données complexes à haute dimension. De plus, nous proposons une théorie innovante pour affiner la quantification de l'épaisseur des queues des distributions, en vertu d'hypothèses statistiques pertinentes dans le domaine de l'apprentissage statistique. Nous concluons cette thèse en proposant trois voies potentielles pour les recherches futures dans ce domaine. Celles-ci sont ensuite suivies par nos remarques finales.
Fichier principal
Vignette du fichier
2023COAZ4083.pdf (15.03 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-04416188 , version 1 (24-12-2023)
tel-04416188 , version 2 (25-01-2024)

Identifiants

  • HAL Id : tel-04416188 , version 2

Citer

Etrit Haxholli. Scalable and flexible density estimation for complex data distributions. Artificial Intelligence [cs.AI]. Université Côte d'Azur, 2023. English. ⟨NNT : 2023COAZ4083⟩. ⟨tel-04416188v2⟩
89 Consultations
25 Téléchargements

Partager

Gmail Facebook X LinkedIn More