Modèles linéaires pour données fonctionnelles multivariées - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Thèse Année : 2023

Linear models for multivariate functional data

Modèles linéaires pour données fonctionnelles multivariées

Résumé

In this thesis, we are interested in the problem of predicting a real or categorical variable using multivariate functional variables. In the existing literature, the proposed methods often assume the case of a single domain. This means that each dimension of the multivariate functional variable has the same domain of definition. This assumption restricts their use to a limited number of applications. Indeed, technological advances in data collection and storage have made it possible to observe several functional characteristics, sometimes of different natures, for the same statistical individual. To solve the prediction problem with this type of variables, we proposed two methods inspired by the PLS regression: MFPLS and TMFPLS. The first one is an extension of the PLS algorithm to the case of explanatory multivariate functional data, where the dimensions are potentially defined on different domains. This method can be used for regression and binary classification. The second method: TMFPLS, is a decision tree which can be used for more complex classification tasks (non-linear relationship between the target variable and the predictors, multiclass classification). These methods can be used for a wide range of applications; however, interpreting their results becomes difficult when the predictors have many dimensions. This is typically the case when many sensors are used to measure a functional variable in several locations. Or more generally, when it comes to repeated functional data. In this case, we present parsimonious methods based on the fusion penalty, to obtain more interpretable models. Applications on simulated data and real data (EEG, ECG, etc.) have demonstrated the good performance of our methods.
Le cadre méthodologique de cette thèse est l'analyse de données fonctionnelles. Nous nous intéressons particulièrement au problème de la prédiction d'une variable réelle ou catégorielle à l'aide de variables fonctionnelles multivariées. Dans la littérature existante, les méthodes proposées ont souvent recours au cadre restrictif du domaine unique. Il signifie que chaque dimension de la variable fonctionnelle multivariée a le même domaine de définition. Cette hypothèse limite leurs utilisations pour un certain nombre de domaines d'application. En effet, l'émergence des nouvelles technologies de collecte et de stockage de données a permis l'observation de plusieurs caractéristiques fonctionnelles, parfois de type différent, pour un même individu statistique. Pour répondre à la problématique de prédiction avec ce type de variables, nous proposons des méthodes basées sur la régression PLS : MFPLS et TMFPLS. La première est une extension de l'algorithme PLS au cas des données fonctionnelles multivariées explicatives, où les dimensions sont potentiellement définies sur différents domaines. Cette méthode peut être utilisée pour la régression et la classification (supervisée) binaire. La deuxième méthode : TMFPLS, est un arbre de décision qui permet de répondre à des tâches de classification plus complexes (relation non-linéaire entre la variable à prédire et les variables explicatives, plusieurs classes tolérées). Ces méthodes peuvent être utilisées dans divers domaines d'applications, cependant, les interpréter devient difficile lorsque les données explicatives ont de nombreuses dimensions. C'est le cas typiquement lorsque plusieurs capteurs sont utilisés pour mesurer une variable fonctionnelle suivant plusieurs localisations. Ou plus généralement, lorsque l'on a à faire à des données fonctionnelles répétées. Dans ce cas, nous présentons des méthodes parcimonieuses basées sur la pénalité fusion permettant d'obtenir une meilleure interprétation des modèles. Les applications sur des données simulées et données réelles (EEG, ECG, etc.) ont permis de démontrer la bonne performance de nos méthodes.
Fichier principal
Vignette du fichier
Rapport__V2_-3.pdf (2.92 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

tel-04376932 , version 1 (07-01-2024)

Identifiants

  • HAL Id : tel-04376932 , version 1

Citer

Issam-Ali Moindjié. Modèles linéaires pour données fonctionnelles multivariées. Statistiques [stat]. Université de Lille, 2023. Français. ⟨NNT : ⟩. ⟨tel-04376932⟩
39 Consultations
30 Téléchargements

Partager

Gmail Facebook X LinkedIn More