Skip to Main content Skip to Navigation
Conference papers

Imputation des données manquantes: Comparaison de différentes approches

Résumé : Les données manquantes constituent un problème majeur, puisque l'information à disposition est incomplète et donc moins fiable. Il est alors nécessaire de traiter correctement les données manquantes avant d'effectuer des analyses statistiques. L'objectif de cette recherche est de comparer par le biais de simulations numériques différentes méthodes existantes pour le traitement des données manquantes. Nous considérons à la fois des méthodes anciennes comme l'analyse des cas complets, le remplacement par la moyenne ou le remplacement par le plus proche voisin, des méthodes d'imputation simple basées notamment sur la régression, et finalement différentes procédures d'imputation multiple. En partant d'un fichier sans aucune donnée manquante, nous avons créé neuf scénarios variant en fonction du nombre de données manquantes et de leur type (complètement aléatoire, aléatoire ou non-aléatoire). Mille ensembles de données ont été générés à partir de chaque scénario, puis les données manquantes ont été traitées selon différentes procédures et les moyennes, écarts-types et corrélations des variables imputées ont été comparés avec le fichier original sans données manquantes. L'influence du traitement des données manquantes sur un modèle de régression a aussi été évaluée. Nos résultats montrent que les méthodes qui permettent globalement d'arriver aux résultats les plus satisfaisants sont des méthodes basées sur l'imputation multiple. D'autres méthodes, comme par exemple l'imputation simple par régression, permettent aussi l'obtention de résultats intéressants, mais seulement dans certaines situations particulières. Certaines méthodes anciennes, comme l'analyse des cas complets, sont à bannir absolument.
Complete list of metadata

Cited literature [7 references]  Display  Hide  Download

https://hal.inria.fr/inria-00494698
Contributor : Conférence Sfds-Hal Connect in order to contact the contributor
Submitted on : Thursday, June 24, 2010 - 8:53:33 AM
Last modification on : Thursday, June 24, 2010 - 8:53:33 AM
Long-term archiving on: : Monday, September 27, 2010 - 11:22:44 AM

File

p37.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : inria-00494698, version 1

Collections

Citation

Mélanie Glasson-Cicognani, André Berchtold. Imputation des données manquantes: Comparaison de différentes approches. 42èmes Journées de Statistique, 2010, Marseille, France, France. ⟨inria-00494698⟩

Share

Metrics

Record views

633

Files downloads

7503