Model-based clustering for multivariate partial ranking data

Julien Jacques; Christophe Biernacki

Article Dans Une Revue Journal of Statistical Planning and Inference Année : 2014

Model-based clustering for multivariate partial ranking data

(1) , (1)

Julien Jacques

Fonction : Auteur
PersonId : 173226
IdHAL : julien-jacques
ORCID : 0000-0003-4808-2781
IdRef : 098191551

MOdel for Data Analysis and Learning

Christophe Biernacki

Fonction : Auteur
PersonId : 931592

MOdel for Data Analysis and Learning

Résumé

This paper proposes the first model-based clustering algorithm dedicated to multivariate partial ranking data. This is an extension of the Insertion Sorting Rank (isr) model for ranking data, which is a meaningful and effective model obtained by modelling the ranking generating process assumed to be a sorting algorithm. The heterogeneity of the rank population is modelled by a mixture of isr, whereas conditional independence assumption allows the extension to multivariate ranking. Maximum likelihood estimation is performed through a SEM-Gibbs algorithm, and partial rankings are considered as missing data, what allows to simulate them during the estimation process. After having validated the estimation algorithm on simulations, three real datasets are studied: the 1980 American Psychological Association (APA) presidential election votes, the results of French students to a general knowledge test and the votes of the European countries to the Eurovision song contest. For each application, the proposed model shows relevant adequacy and leads to significant interpretation. In particular, regional alliances between European countries are exhibited in the Eurovision contest, which are often suspected but never proved.

Nous proposons le premier modèle de classification automatique pour données de rang multivariées potentiellement incomplètes. Ce modèle est une extension du modèle Insertion Sorting Rank (isr) pour données de rang, qui est un modèle efficace et signifiant obtenu en modélisant le processus de génération des données. L'hétérogénéité des données est traitée à l'aide d'un modèle de mélange, tandis qu'une hypothèse classique d'indépendance conditionnelle permet de prendre en compte les rangs multivariés. L'estimation des paramètres du modèle est réalisée par maximum de vraisemblance à l'aide d'un algorithme SEM-Gibbs. Les données incomplètes sont considérées comme des données manquantes, ce qui permet de les simuler durant le processus d'estimation. Après avoir validé la stratégie d'estimation sur données simulées, trois jeux de données ont été étudiés : les votes lors de l'élection du président de l'American Psychological Association de 1980, les résultats d'étudiants français lors d'un test de culture générale, et les votes des pays lors du concours de l'Eurovision. Pour chaque application, le modèle proposé a montré une très bonne qualité d'ajustement et à conduit à des interprétations intéressantes. Notamment, pour le concours de l'Eurovision, nous avons mis à jour des alliances géographiques entre pays voisins, ce qui a souvent été suspecté pour ce concours mais jamais prouvé.

Mots clés

Multivariate ranking partial ranking mixture model Insertion Sort Rank SEM algorithm Gibbs sampling

Données de rang multivariées rangs partiels modèle de mélange tri par insertion Algorithme SEM Echantillonneur de Gibbs

Domaines

Statistiques [math.ST] Théorie [stat.TH]

Fichier principal

RR-8113.pdf (543.32 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Julien Jacques : Connectez-vous pour contacter le contributeur

https://inria.hal.science/hal-00743384

Soumis le : jeudi 18 octobre 2012-18:38:03

Dernière modification le : vendredi 19 avril 2024-14:48:47

Archivage à long terme le : samedi 19 janvier 2013-03:43:11

Dates et versions

hal-00743384 , version 1 (18-10-2012)

Identifiants

HAL Id : hal-00743384 , version 1

Citer

Julien Jacques, Christophe Biernacki. Model-based clustering for multivariate partial ranking data. Journal of Statistical Planning and Inference, 2014, 149, pp.201-217. ⟨hal-00743384⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-RENNES1 CNRS INRIA IRISA INRIA2 UR1-MATH-STIC UR1-UFR-ISTIC LABEXIMU UNIV-RENNES UNIV-LILLE UR1-MATH-NUM LPP-MATH

668 Consultations

855 Téléchargements

Model-based clustering for multivariate partial ranking data

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager