Model-based clustering for multivariate partial ranking data

Julien Jacques 1, 2 Christophe Biernacki 1, 2
1 MODAL - MOdel for Data Analysis and Learning
Inria Lille - Nord Europe, LPP - Laboratoire Paul Painlevé - UMR 8524, CERIM - Santé publique : épidémiologie et qualité des soins-EA 2694, Polytech Lille, Université de Lille 1, IUT’A
Résumé : Nous proposons le premier modèle de classification automatique pour données de rang multivariées potentiellement incomplètes. Ce modèle est une extension du modèle Insertion Sorting Rank (isr) pour données de rang, qui est un modèle efficace et signifiant obtenu en modélisant le processus de génération des données. L'hétérogénéité des données est traitée à l'aide d'un modèle de mélange, tandis qu'une hypothèse classique d'indépendance conditionnelle permet de prendre en compte les rangs multivariés. L'estimation des paramètres du modèle est réalisée par maximum de vraisemblance à l'aide d'un algorithme SEM-Gibbs. Les données incomplètes sont considérées comme des données manquantes, ce qui permet de les simuler durant le processus d'estimation. Après avoir validé la stratégie d'estimation sur données simulées, trois jeux de données ont été étudiés : les votes lors de l'élection du président de l'American Psychological Association de 1980, les résultats d'étudiants français lors d'un test de culture générale, et les votes des pays lors du concours de l'Eurovision. Pour chaque application, le modèle proposé a montré une très bonne qualité d'ajustement et à conduit à des interprétations intéressantes. Notamment, pour le concours de l'Eurovision, nous avons mis à jour des alliances géographiques entre pays voisins, ce qui a souvent été suspecté pour ce concours mais jamais prouvé.
Type de document :
Article dans une revue
Journal of Statistical Planning and Inference, Elsevier, 2014, 149, pp.201-217
Liste complète des métadonnées

Littérature citée [30 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/hal-00743384
Contributeur : Julien Jacques <>
Soumis le : jeudi 18 octobre 2012 - 18:38:03
Dernière modification le : jeudi 27 novembre 2014 - 12:40:01
Document(s) archivé(s) le : samedi 19 janvier 2013 - 03:43:11

Fichier

RR-8113.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-00743384, version 1

Collections

Citation

Julien Jacques, Christophe Biernacki. Model-based clustering for multivariate partial ranking data. Journal of Statistical Planning and Inference, Elsevier, 2014, 149, pp.201-217. 〈hal-00743384〉

Partager

Métriques

Consultations de
la notice

685

Téléchargements du document

511