From topological features to machine learning models : a journey through persistence diagrams - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Thèse Année : 2023

From topological features to machine learning models : a journey through persistence diagrams

De la topologie aux méthodes d'apprentissage automatique : utiliser puis dépasser les diagrammes de persistance

Résumé

Topological data analysis consists in extracting topological information to help analyze data sets. This information can be easily included in a workflow to perform various learning tasks on the data. One of the most ubiquitous objects is the persistence diagram. It is a discrete measure where the coordinates of each point correspond to a range of scales at which a topological feature is present in the data. Assuming we observe a noisy observation of a smooth function, persistence diagrams can be separated into a noise and a signal component. The first contribution of this thesis is to use this information in a regression framework to estimate a noisy function. By minimizing a topological criterion, we manage to cancel the noise and retrieve a smooth signal. However, such a noise-signal dichotomy is very coarse, and persistence diagrams contain much information that can help classify data. As they are measures, they cannot be input as such in a standard machine learning pipeline. In a second contribution, we have developed a method that classifies measure data and adapted elements of statistical learning theory in this framework. We have also contributed to the study of the asymptotic persistence diagrams built in a random setting. In practice, we are only interested in using limited information from persistence diagrams. In a final contribution we demonstrate that a few well chosen statistics are enough to obtain competitive accuracy in classification problems. These descriptors are typically based on the Euler characteristic and are much faster to compute than persistence diagrams since we do not compute the coordinates of all the points in the diagram. Furthermore, these descriptors can be adapted to a multi-valued evolution of the topology of the data, going beyond a theoretical limitation of persistence diagrams that restricts to the use of a single evolution parameter.
La raison d'être de l'analyse topologique des données est d'extraire de l'information de nature topologique afin d'aider à analyser des jeux de données. Cette information peut alors être aisément incluse dans une chaîne de traitement pour effectuer diverses tâches d'apprentissages sur les données. Un des objets les plus présents dans ce cadre est le diagramme de persistance. Mathématiquement, cet objet est une mesure discrète où les coordonnées de chaque point correspondent à des échelles auxquelles une composante topologique est présente dans les données. Supposons que l'on ait accès à des observations bruitées d'une fonction lisse, le diagramme de persistance peut alors être scindé en une composante de bruit et une composante de signal. La première contribution de cette thèse est d'exploiter cette information pour un problème de régression afin de reconstruire une fonction bruitée. En minimisant un critère topologique, on parvient à annuler le bruit et récupérer un signal lisse. Cependant, cette dichotomie entre le signal et le bruit est assez grossière, et les diagrammes de persistance contiennent beaucoup d'information pouvant permettre de classifier des données. En raison de leur structure de mesures, ils ne peuvent être mis tels quels en entrée d'algorithmes d'apprentissage automatique standards. La deuxième contribution de cette thèse est de proposer une méthode de classification de mesures, et l'adaptation des principes fondateurs de la théorie de l'apprentissage statistique dans ce contexte. On a également contribué à l'étude asymptotique des diagrammes de persistance dans un cadre aléatoire. En pratique, l'information utile contenue dans les diagrammes peut être redondante et on peut être intéressés par seulement quelques statistiques bien choisies extraites du diagramme. Dans une troisième contribution, on a développé des descripteurs basés sur le calcul de la caractéristique d'Euler, qui sont bien plus rapides à calculer que les diagrammes de persistance, tout en conservant une performance similaire. De plus, ces descripteurs peuvent être adaptés à une évolution multi-paramètre de la topologie des données, permettant de dépasser une restriction théorique des diagrammes de persistance qui contraint à l'utilisation d'un seul paramètre d'évolution.
Fichier principal
Vignette du fichier
124417_HACQUARD_2023_archivage.pdf (6.59 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-04328645 , version 1 (07-12-2023)

Identifiants

  • HAL Id : tel-04328645 , version 1

Citer

Olympio Hacquard. From topological features to machine learning models : a journey through persistence diagrams. Machine Learning [stat.ML]. Université Paris-Saclay, 2023. English. ⟨NNT : 2023UPASM019⟩. ⟨tel-04328645⟩
74 Consultations
92 Téléchargements

Partager

Gmail Facebook X LinkedIn More