Mining Heterogeneous Multidimensional Sequential Data: An Application to the Analysis of Patient Healthcare Trajectories

Elias Egho 1
1 ORPAILLEUR - Knowledge representation, reasonning
Inria Nancy - Grand Est, LORIA - NLPKD - Department of Natural Language Processing & Knowledge Discovery
Résumé : Tous les domaines de la science et de la technologie produisent de gros volume de données hétérogènes. L’exploration de tels volumes de données reste toujours un défi. Peu de travaux ciblent l’exploration et l’analyse de données séquentielles multidimensionnelles et hétérogènes. Dans ce travail, nous proposons une contribution à la découverte de connaissances dans les données séquentielles hétérogènes. Nous étudions trois axes de recherche différents: (i) l’extraction de motifs séquentiels, (ii) la classification et (iii) le clustering des données séquentielles. Tout d’abord, nous généralisons la notion de séquence multidimensionnelle en considérant la structure complexe et hétérogène. Nous présentons une nouvelle approche MMISP pour extraire des motifs séquentiels à partir de données séquentielles multidimensionnelles et hétérogènes. MMISP génère un grand nombre de motifs séquentiels comme cela est généralement le cas pour toues les algorithmes d’énumération des motifs. Pour surmonter ce problème, nous proposons une nouvelle façon de considérer les séquences multidimensionnelles hétérogènes en les associant à des structures de patrons. Nous développons une méthode pour énumérer seulement les motifs qui respectent certaines contraintes. La deuxième direction de recherche est la classification de séquences multidimensionnelleset hétérogènes. Nous utilisons l’analyse formelle de concept (AFC) comme une méthode de classification. Nous montrons l’intérêt des treillis de concepts et de l’indice de stabilité pour classer les séquences et pour choisir quelques groupes intéressants de séquences. La troisième direction de recherche dans cette thèse est préoccupé par le regroupement des données séquentielles multidimensionnelles et hétérogènes. Nous nous basons sur la notion de sous-séquences communes pour définir une mesure de similarité permettant d’evaluer la proximité entre deux séquences formées d’une liste d’ensemble d’items. Nous utilisons cette mesure de similarité pour construire une matrice de similarité entre les séquences et pour les segmenter en plusieurs groupes. Dans ce travail, nous présentons les résultats théoriques et un algorithme de programmation dynamique permettant de compter efficacement toutes les sous-séquences communes à deux séquences sans énumérer toutes les séquences. Le système résultant de cette recherches a été appliqué pour analyser et extraire les trajectoires de soins de santé des patients en cancérologie. Les données sont issues d’ une base de données médico-administrative incluant des informations sur des patients hospitalisent en France. Le système permet d’identifier et de caractériser des épisodes de soins pour des ensembles spécifiques de patients. Les résultats ont été discutés et interprétés avec les experts du domaine.
Type de document :
Thèse
Other [cs.OH]. Université de Lorraine, 2014. English
Liste complète des métadonnées

Littérature citée [175 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/tel-01094400
Contributeur : Elias Egho <>
Soumis le : vendredi 12 décembre 2014 - 11:36:28
Dernière modification le : mardi 18 décembre 2018 - 16:38:02
Document(s) archivé(s) le : vendredi 13 mars 2015 - 10:45:51

Identifiants

  • HAL Id : tel-01094400, version 1

Citation

Elias Egho. Mining Heterogeneous Multidimensional Sequential Data: An Application to the Analysis of Patient Healthcare Trajectories. Other [cs.OH]. Université de Lorraine, 2014. English. 〈tel-01094400〉

Partager

Métriques

Consultations de la notice

477

Téléchargements de fichiers

458