Support of temporal structure in the statistical analysis of high-throughput proteomic data

Each year, in France, over 100 000 people suffer from myocardial infarction (MI) which, for some of them, lead to a left ventricular remodeling (LVR) and heart failure (HF). Studies have shown that during a year following MI, LVR is a risk factor for HF and cardiovascular death. Finding biomarkers which can detect early stage of LVR or HF after a MI is a leading public health matter. We are aiming at selecting few proteins responsible for LVR and survival, using not only baseline measurements of over 5000 proteins on 2 cohorts of around 240 patients each, but also using three additional longitudinal measurements of these proteins available on one of the two cohorts. In a first time, we will present how we developped a prediction survival model by creating cluster of patients. In a second time, we will focus on the longitudinal dimension of the data and explore how this dimension could help selecting relevant proteins for predicting survival using only baseline measurment. To handle the longitudinal (and high) dimension of the data, clustering of longitudinal data will be studied in order to create groups of proteins that could be used in a selection model.

Chaque année, en France, plus de 100 000 personnes déclarent un infarctus du myocarde (IM) qui, pour certains d'entre eux, conduit à un remodelage ventriculaire gauche (RVG) et à de l'insuffisance cardiaque (IC). De précédentes études ont montré que la présence d'un RVG suite à un infarctus était un facteur de risque d'IC et de décès pour causes cardiovasculaires. La rechercher de biomarqueurs permettant la prédiction du RVG ou de la survie à un stade précoce est donc un problème de santé publique. Notre but, ici, est de sélectionner un petit nombre de protéines liées au RVG ou à la survie en utilisant les mesures de plus de 5000 protéines sur deux cohortes d'environs 240 patients chacune disponibles au moment de l'infarctus, mais aussi à trois temps supplémentaires pour l'une des deux cohortes. Dans un premier temps, nous présenterons un modèle prédictif de la survie basé sur la création de clusters de patients. Puis, nous nous concentrerons sur la dimension longitudinale des données et explorerons comment cette dimension peut nous être utile dans la sélection de protéines pour la prédiction précoce de la survie des patients. Afin de modéliser la dimension longitudinale et la grande dimension des données un clustering longitudinal sera d'abord étudié afin de créer des groupes de protéines pouvant ensuite être utilisés dans un modèle de prédiction de la survie.

Mots clés

Health prediction clustering survival longitudinal data high dimension

Santé prédiction clustering survie données longitudinales grande dimension

Domaines

Applications [stat.AP]

Fichier principal

JDS2021.pdf (3.23 Mo)

Origine : Fichiers produits par l'(les) auteur(s)

Wilfried HEYSE : Connectez-vous pour contacter le contributeur

https://inria.hal.science/hal-03525345

Soumis le : jeudi 13 janvier 2022-17:51:11

Dernière modification le : lundi 12 février 2024-15:38:10

Archivage à long terme le : jeudi 14 avril 2022-23:38:01

Dates et versions

hal-03525345 , version 1 (13-01-2022)

Identifiants

HAL Id : hal-03525345 , version 1

Citer

Wilfried Heyse, Vincent Vandewalle, Philippe Amouyel, Guillemette Marot, Christophe Bauters, et al.. Support of temporal structure in the statistical analysis of high-throughput proteomic data. Journées de Statistique 2021, Jun 2021, Nice, France. ⟨hal-03525345⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

RIIP CNRS INRIA INRIA2 UNIV-LILLE RID_AGE LPP-MATH

54 Consultations

31 Téléchargements