Modélisation et classification des données binaires en grande dimension : application à l'autopsie verbale

Seydou Nourou Sylla

Résumé

The lack of reliable data about the causes of mortality still constitutes an obstacle for the development of poor regions in the world. In these countries, it is not always easy to obtain reliable information about morbidity and mortality. Verbal autopsy has become the main source of information about the causes of death in many places. This method is based on structured questionnaires to determine the symptoms and to get information about the possible cause of death. These data lead to the development of diagnosis assistance systems which are often based on classification methods. The problem we tackle is the development of a method for automatic diagnosis using survey data. The final objective is to provide a diagnosis by taking into account the presence or absence of symptoms and sociodemographic variables. This approach is based on the construction of discrimination models from multi-class data with a large number of explanatory variables of binary nature. The first part of this thesis uses a mixture model under the assumption of conditional independence together with dimensionality reduction techniques. The binary nature of the answers requires methods based on similarity measures. Thus, a generalization of several measures of similarity and dissimilarity is exposed in this thesis. Since kernels are of great importance in classification, we also present a kernel construction technique from a similarity measure. The second part of this thesis presents a classification method combining both similarity measures and mixture models. The hierarchical structure of the questions asked during the interview and their interactions allows us to define a structure over the data. To better take into account this structure, we present a hierarchical kernel that takes into account the interactions between variables. This kernel combines a hierarchical structure for the variables with a tree structure with two levels and interaction of variables up to a certain order.

Le manque de données fiables sur les niveaux et les causes de mortalité constitue encore un frein au développement dans les pays défavorisés. Dans ces pays, il n’est pas toujours facile d’obtenir des informations fiables sur la morbidité et la mortalité. L’autopsie verbale est devenue la principale source d’information sur les causes de décès dans ces localités. Cette méthode s’appuie sur des questionnaires structurés de manière à déterminer la symptomatologie et à obtenir des informations sur la cause probable du décès. Ces données collectées conduisent à l’élaboration de méthodes dites d’aide aux diagnostics qui reposent souvent sur les méthodes de classification. La problématique porte sur l’élaboration d’une méthode de diagnostic automatique à partir des données d’enquête. L’objectif est d’obtenir des diagnostics en prenant en compte la présence ou l’absence de symptômes et des variables socio-démographiques. Il repose sur la construction de modèles de discrimination à partir de données multi-classes avec un nombre important de variables explicatives à caractère binaire. Une partie de ce travail de thèse porte sur l’utilisation d’un modèle de mélange sous l’hypothèse d’indépendance conditionnelle et sur des techniques de réduction de la dimensionnalité. Le caractère binaire des réponses suppose des méthodes reposant sur les mesures de similarité. Ainsi, une généralisation de plusieurs mesures de similarités et de dissimilarités est exposée dans cette thèse. Nous avons également présenté une technique de construction de noyaux pour la classification à partir d’une mesure de similarité. La seconde partie de cette thèse présente une méthode de classification combinant à la fois les mesures de similarités et les modèles de mélange. La structure hiérarchique des questions posées lors de l’entretien et de leurs interactions nous a permis de définir une structure sur les données. Ainsi pour mieux prendre en compte cette structure, nous avons présenté lors de nos travaux un noyau hiérarchique avec effet d’interactions entre les variables. Ce noyau combine à la fois une structure hiérarchique des variables suivant un arborescence à deux niveaux et l’interaction de leurs sous variables jusqu’à un certain ordre fixé

Modeling and classification of binary data in high dimension : application to verbal autopsy

Modélisation et classification des données binaires en grande dimension : application à l'autopsie verbale

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager