Imputation des données manquantes: Comparaison de différentes approches

Résumé : Les données manquantes constituent un problème majeur, puisque l'information à disposition est incomplète et donc moins fiable. Il est alors nécessaire de traiter correctement les données manquantes avant d'effectuer des analyses statistiques. L'objectif de cette recherche est de comparer par le biais de simulations numériques différentes méthodes existantes pour le traitement des données manquantes. Nous considérons à la fois des méthodes anciennes comme l'analyse des cas complets, le remplacement par la moyenne ou le remplacement par le plus proche voisin, des méthodes d'imputation simple basées notamment sur la régression, et finalement différentes procédures d'imputation multiple. En partant d'un fichier sans aucune donnée manquante, nous avons créé neuf scénarios variant en fonction du nombre de données manquantes et de leur type (complètement aléatoire, aléatoire ou non-aléatoire). Mille ensembles de données ont été générés à partir de chaque scénario, puis les données manquantes ont été traitées selon différentes procédures et les moyennes, écarts-types et corrélations des variables imputées ont été comparés avec le fichier original sans données manquantes. L'influence du traitement des données manquantes sur un modèle de régression a aussi été évaluée. Nos résultats montrent que les méthodes qui permettent globalement d'arriver aux résultats les plus satisfaisants sont des méthodes basées sur l'imputation multiple. D'autres méthodes, comme par exemple l'imputation simple par régression, permettent aussi l'obtention de résultats intéressants, mais seulement dans certaines situations particulières. Certaines méthodes anciennes, comme l'analyse des cas complets, sont à bannir absolument.
Type de document :
Communication dans un congrès
42èmes Journées de Statistique, 2010, Marseille, France, France. 2010
Liste complète des métadonnées

Littérature citée [7 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/inria-00494698
Contributeur : Conférence Sfds-Hal <>
Soumis le : jeudi 24 juin 2010 - 08:53:33
Dernière modification le : jeudi 24 juin 2010 - 08:53:33
Document(s) archivé(s) le : lundi 27 septembre 2010 - 11:22:44

Fichier

p37.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : inria-00494698, version 1

Collections

Citation

Mélanie Glasson-Cicognani, André Berchtold. Imputation des données manquantes: Comparaison de différentes approches. 42èmes Journées de Statistique, 2010, Marseille, France, France. 2010. 〈inria-00494698〉

Partager

Métriques

Consultations de la notice

479

Téléchargements de fichiers

4083