Statistics for Topological Descriptors using optimal transport - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Thèse Année : 2020

Statistics for Topological Descriptors using optimal transport

Statistiques sur les descripteurs topologiques à base de transport optimal

Résumé

Topological data analysis (TDA) allows one to extract rich information from structured data (such as graphs or time series) that occurs in modern machine learning problems. This information will be represented as descriptors such as persistence diagrams, which can be described as point measures supported on a half-plane. While persistence diagrams are not elements of a vector space, they can still be compared using partial matching metrics. The similarities between these metrics and those routinely used in optimal transport—another field of mathematics—are known for long, but a formal connection between these two fields is yet to come.The purpose of this thesis is to clarify this connection and develop new theoretical and computational tools to manipulate persistence diagrams, targeting statistical applications. First, we show how optimal partial transport with boundary, a variation of classic optimal transport theory, provides a formalism that encompasses standard metrics in TDA. We then show-case the benefits of this connection in different situations: a theoretical study and the development of an algorithm to perform fast estimation of barycenters of persistence diagrams, the characterization of continuous linear representations of persistence diagrams and how to learn such representations using a neural network, and eventually a stability result in the context of linearly averaging random persistence diagrams.
L’analyse topologique des données (ATD) permet d’extraire une information riche des données structurées (telles que les graphes ou les séries temporelles) présentes dans les problèmes modernes d’apprentissage. Elle va représenter cette information sous forme de descripteurs dont font partie les diagrammes de persistance, qui peuvent être décrits comme des mesures ponctuelles supportées sur un demi-plan. À défaut d’être de simples vecteurs, les diagrammes de persistance peuvent néanmoins être comparés entre eux à l’aide de métriques d’appariement partiel. La similarité entre ces métriques et les métriques usuelles du transport optimal - un autre domaine des mathématiques - est connue de longue date, mais un lien formel entre ces deux domaines restait à établir. L’objet de cette thèse est de clarifier cette connexion pour pouvoir utiliser les nombreux acquis du transport optimal afin de développer de nouveaux outils statistiques (théoriques et pratiques) pour manipuler les diagrammes de persistance. Dans un premier temps, nous montrons comment le transport optimal partiel avec frontière, une variante du transport optimal classique, nous fournit un formalisme qui contient les métriques usuelles de l’ATD. Nous illustrons ensuite les apports bénéfiques de cette reformulation dans différentes situations: étude théorique et algorithme pour l’estimation efficace des barycentres de diagrammes de persistance grâce au transport régularisé, caractérisation des représentations linéaires continues des diagrammes et leur apprentissage via un réseau de neurones versatile, ainsi qu’un résultat de stabilité des moyennes linéaires de diagrammes tirés aléatoirement.
Fichier principal
Vignette du fichier
93404_LACOMBE_2020_archivage.pdf (3.92 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-02979251 , version 1 (27-10-2020)
tel-02979251 , version 2 (28-10-2020)

Identifiants

  • HAL Id : tel-02979251 , version 2

Citer

Théo Lacombe. Statistics for Topological Descriptors using optimal transport. Metric Geometry [math.MG]. Institut Polytechnique de Paris, 2020. English. ⟨NNT : 2020IPPAX036⟩. ⟨tel-02979251v2⟩
394 Consultations
281 Téléchargements

Partager

Gmail Facebook X LinkedIn More