Contribution to spatial statistics for high-dimensional and survival data - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Thèse Année : 2022

Contribution to spatial statistics for high-dimensional and survival data

Contribution à la statistique spatiale for données de grande dimension et de survie

Résumé

In this thesis, we are interested in statistical spatial learning for high-dimensional and survival data. The objective is to develop unsupervised cluster detection methods by means of spatial scan statistics in the contexts of functional data analysis in one hand and survival data analysis in the other hand. In the first two chapters, we consider univariate and multivariate functional data measured spatially in a geographical area. We propose both parametric and nonparametric spatial scan statistics in this framework. These univariate and multivariate functional approaches avoid the loss of information respectively of a univariate method or a multivariate method applied on the average of the observations during the study period. We study the new methods' performances in simulation studies before applying them on economic and environmental real data. We are also interested in spatial cluster detection of survival data. Although there exist already spatial scan statistics approaches in this framework in the literature, these do not take into account a potential correlation of survival times between individuals of the same spatial unit. Moreover, the spatial nature of the data implies a potential correlation between the spatial units, which should be taken into account. The originality of our proposed method is to introduce a spatial scan statistic based on a Cox model with a spatial frailty, allowing to take into account both the potential correlation between the individuals of the same spatial unit and the potential correlation between the spatial units. We compare the performances of this new approach with the existing methods and apply them on real data corresponding to survival times of elderly people with end-stage kidney failure in northern France. Finally, we propose a number of perspectives to our work, both in a direct extension of this thesis in the framework of spatial scan statistics for high-dimensional and survival data, but also perspectives in a broader context of unsupervised spatial analysis (spatial clustering for high-dimensional data (tensors)), and supervised spatial learning (regression)
Dans ce mémoire de thèse nous nous intéressons aux méthodes d'apprentissage statistique pour données spatiales en grande dimension et données de survie. L'objectif est de développer des méthodes de détection de clusters non supervisées avec des statistiques de scan spatiales, à la fois dans le cadre de l'analyse de données fonctionnelles, mais aussi pour l'analyse de données de survie. Nous considérons tout d'abord des données fonctionnelles univariées ou multivariées mesurées spatialement dans une région géographique. Nous proposons des statistiques de scan paramétriques et non paramétriques dans ce contexte. Ces approches fonctionnelles univariées et multivariées évitent la perte d'information respectivement d'une méthode univariée ou multivariée appliquée sur des observations moyennes au cours de la période d'étude. Nous étudions également les performances de ces approches sur des études de simulation, avant de les appliquer sur des données réelles économiques et environnementales. Nous nous intéressons également à la détection de clusters spatiaux de temps de survie. Bien qu'il existe déjà dans la littérature des approches de statistiques de scan spatiale dans ce cadre, celles-ci ne permettent pas de prendre en compte une éventuelle corrélation entre les individus d'une même unité spatiale. De plus, la nature spatiale des données implique une potentielle corrélation entre les unités spatiales, qui doit être prise en compte. L'originalité de l'approche que nous proposons est le développement d'une nouvelle statistique de scan spatiale basée sur un modèle de Cox à fragilité spatiale, permettant à la fois la prise en compte de la corrélation entre les individus d'une même unité spatiale, et une éventuelle corrélation entre les unités spatiales. Nous avons comparé les performances de cette nouvelle approche avec les méthodes existantes et nous les avons appliquées sur des données réelles de temps de survie des personnes âgées atteintes d'insuffisance rénale chronique terminale dans le nord de la France. Enfin, nous proposons un certain nombre de perspectives à notre travail, à la fois avec des prolongements directs à cette thèse dans le cadre des statistiques de scan spatiales pour données en grande dimension et données de survie, mais également avec des perspectives dans un cadre plus large d'analyse spatiale non supervisée (clustering spatial pour données en grande dimension modélisées par des tenseurs), et d'apprentissage spatial supervisé (régression).
Fichier principal
Vignette du fichier
2022ULILS032.pdf (27.74 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

tel-03889127 , version 1 (03-03-2023)
tel-03889127 , version 2 (03-03-2023)

Identifiants

  • HAL Id : tel-03889127 , version 2

Citer

Camille Frévent. Contribution to spatial statistics for high-dimensional and survival data. Statistics [math.ST]. Université de Lille, 2022. English. ⟨NNT : ⟩. ⟨tel-03889127v2⟩
88 Consultations
17 Téléchargements

Partager

Gmail Facebook X LinkedIn More