Modélisation et classification des données binaires en grande dimension : application à l'autopsie verbale

Résumé : Le manque de données fiables sur les niveaux et les causes de mortalité constitue encore un frein au développement dans les pays défavorisés. Dans ces pays, il n’est pas toujours facile d’obtenir des informations fiables sur la morbidité et la mortalité. L’autopsie verbale est devenue la principale source d’information sur les causes de décès dans ces localités. Cette méthode s’appuie sur des questionnaires structurés de manière à déterminer la symptomatologie et à obtenir des informations sur la cause probable du décès. Ces données collectées conduisent à l’élaboration de méthodes dites d’aide aux diagnostics qui reposent souvent sur les méthodes de classification. La problématique porte sur l’élaboration d’une méthode de diagnostic automatique à partir des données d’enquête. L’objectif est d’obtenir des diagnostics en prenant en compte la présence ou l’absence de symptômes et des variables socio-démographiques. Il repose sur la construction de modèles de discrimination à partir de données multi-classes avec un nombre important de variables explicatives à caractère binaire. Une partie de ce travail de thèse porte sur l’utilisation d’un modèle de mélange sous l’hypothèse d’indépendance conditionnelle et sur des techniques de réduction de la dimensionnalité. Le caractère binaire des réponses suppose des méthodes reposant sur les mesures de similarité. Ainsi, une généralisation de plusieurs mesures de similarités et de dissimilarités est exposée dans cette thèse. Nous avons également présenté une technique de construction de noyaux pour la classification à partir d’une mesure de similarité. La seconde partie de cette thèse présente une méthode de classification combinant à la fois les mesures de similarités et les modèles de mélange. La structure hiérarchique des questions posées lors de l’entretien et de leurs interactions nous a permis de définir une structure sur les données. Ainsi pour mieux prendre en compte cette structure, nous avons présenté lors de nos travaux un noyau hiérarchique avec effet d’interactions entre les variables. Ce noyau combine à la fois une structure hiérarchique des variables suivant un arborescence à deux niveaux et l’interaction de leurs sous variables jusqu’à un certain ordre fixé
Type de document :
Thèse
Statistiques [math.ST]. Université Gaston Berger de Saint-Louis (SENEGAL), 2016. Français
Liste complète des métadonnées

https://hal.inria.fr/tel-01427119
Contributeur : Stephane Girard <>
Soumis le : jeudi 5 janvier 2017 - 12:07:50
Dernière modification le : mercredi 11 avril 2018 - 01:58:07
Document(s) archivé(s) le : jeudi 6 avril 2017 - 13:06:18

Identifiants

  • HAL Id : tel-01427119, version 1

Citation

Seydou Nourou Sylla. Modélisation et classification des données binaires en grande dimension : application à l'autopsie verbale. Statistiques [math.ST]. Université Gaston Berger de Saint-Louis (SENEGAL), 2016. Français. 〈tel-01427119〉

Partager

Métriques

Consultations de la notice

346

Téléchargements de fichiers

312