Unsupervised learning of huge data sets with limited computed resources - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Thèse Année : 2022

Unsupervised learning of huge data sets with limited computed resources

Apprentissage non supervisé pour données extrêmement volumineuses en situation de ressources informatiques arbitrairement limitées

Résumé

Clustering reveals all its interest when the data set size considerably increases, since there is the opportunity to discover tiny but possibly high value clusters, which can not be detected with moderate sample sizes. However, the clustering of such high data volumes encounters computational limitations, requiring extremely high memory and computational resources. Thus, current clustering algorithms need frugal implementations, also demanded by institutions and industries to accomplish today's eco-friendly policies. In this context, Gaussian model-based clustering, a popular clustering technique based on Gaussian mixtures, has required frugal adaptations to overcome these computational limitations and to report, even in the huge data case, the same good performance achieved in moderate size analyses. Such implementationsare essentially based on subsampling strategies, which manage to be frugal, but they are expected to heavily failed in highly imbalanced cluster case. Thus, in this work, we propose a frugal technique, based on a so-called bin-marginal data-compression, to perform Gaussian model-based clustering on huge and imbalanced data sets. After a preliminary analysis on simple univariate settings revealing the potential of our solution (here, based on univariate binned data), we extend our proposal to multivariate data sets, where bin-marginal data are employed to perform a drastic reduction of the data volume. Despite this extreme loss of information, we prove identifiability property for the diagonal mixture model and we also introduce a specific EM-like algorithm associated to a composite likelihood approach guaranteeing frugality.Numerical experiments highlight that the proposed method outperforms subsampling both in controlled simulations and in various real applications where imbalanced clusters may typically appear, such as image segmentation, hazardous asteroids recognition and fraud detection. Then, additional topics regarding model choice, the problem of local maxima and the impact of our data-compression on clustering are dealt with a pure experimental point of view. Finally, through a collaboration with a company specialized in predictive maintainance, a practical application of anomaly detection on real time series is shown, in order to extend the potential application domains of the proposal.
Par nature, le clustering révèle tout son intérêt lorsque le volume des jeux de données augmente considérablement, parce qu’il y ainsi l’opportunité de découvrir des classes potentiellement petites mais inconnues jusqu'alors puisque indétectables avec des tailles d'échantillons plus réduits. L'intérêt de telles classes peut être en outre inversement proportionnel à leur taille, signe de phénomènes atypiques mais à forte valeur comme des anomalies, des fraudes, etc. Toutefois, classifier de tels volumes de données peut facilement rencontrer des limitations informatiques fortes, demandant en effet potentiellement d'énormes quantité de mémoire vive et d'autres ressources informatiques substantielles (calcul, énergie, flux). Par conséquent, si l'on souhaite effectivement mettre en oeuvre des algorithmes de classification sur de très grands jeux de données tout en limitant les ressources informatiques à mobiliser (pour des raisons de coût ou d'écologie), il est nécessaire d'envisager des approches beaucoup plus frugales que les approches actuelles, tout en garantissant des résultats d'estimation de haute qualité. La classification sur modèle de mélange gaussien étant certainement l'approche la plus populaire (ne serait-ce par son lien structurel avec les méthodes de k-means), ce travail de thèse explore prioritairement la frugalité du clustering dans ce cadre. Il est à noter que des stratégies fondées sur de l'échantillonnage, bien qu'ayant de bonnes propriétés de frugalité, doivent être écartées car elles s'avèrent incapables de détecter des partitions extrêmement déséquilibrées, ce qui est un prérequis essentiel dans notre contexte. Par conséquent, dans cette thèse, on adopte une stratégie frugale alternative qui repose sur une compression des données à la fois par axe et par intervalles (on parle alors de "bin-marginal"). Après une analyse préliminaire en situation simplifiée (univarié avec bins) qui révèle le potentiel de notre proposition, nous abordons le cas multivarié (combinant cette fois bins et marginalisation) qui sera le coeur de ce travail. Malgré la réduction extrême des données permise par le "bin-marginal", nous montrons que cette perte drastique d’information n'est pas préjudiciable à l'objectif de clustering par mélanges gaussiens dans le cas diagonal. Dans un premier temps, nous montrons l’identifiabilité de ces mélanges diagonaux et nous introduisons un algorithme spécifique similaire à EM mais associé à une approche basée sur une vraisemblance composite qui s'appuie sur une garantie de consistance des estimateurs. Des expériences numériques illustrent que notre méthode est beaucoup plus performante que le sous-échantillonnage soit dans des simulations, soit dans des applications réelles où les classes sont fortement déséquilibrées par nature, comme la segmentation d'images, la reconnaissance d'astéroïdes dangereux ou la détection de fraudes. Ensuite, des sujets supplémentaires concernant le choix de modèle, la problématique des maxima locaux et l’impact de notre compression sur le clustering sont traités avec un point de vue plus expérimental. Finalement, une application pratique de détection d’anomalies sur des séries temporelles (potentiellement très volumineuse), et réalisée dans le cadre d'un partenariat avec une petite entreprise spécialisée en maintenance prédictive, est menée pour évaluer la potentialité de notre approche dans un domaine d’application connexe.
Fichier principal
Vignette du fichier
These_ANTONAZZO_Filippo.pdf (6.16 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03846222 , version 1 (11-11-2022)
tel-03846222 , version 2 (23-01-2023)

Identifiants

  • HAL Id : tel-03846222 , version 2

Citer

Filippo Antonazzo. Unsupervised learning of huge data sets with limited computed resources. Data Structures and Algorithms [cs.DS]. Université de Lille, 2022. English. ⟨NNT : 2022ULILB015⟩. ⟨tel-03846222v2⟩
134 Consultations
65 Téléchargements

Partager

Gmail Facebook X LinkedIn More