Imputation des données manquantes: Comparaison de différentes approches - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Communication Dans Un Congrès Année : 2010

Imputation des données manquantes: Comparaison de différentes approches

Résumé

Les données manquantes constituent un problème majeur, puisque l'information à disposition est incomplète et donc moins fiable. Il est alors nécessaire de traiter correctement les données manquantes avant d'effectuer des analyses statistiques. L'objectif de cette recherche est de comparer par le biais de simulations numériques différentes méthodes existantes pour le traitement des données manquantes. Nous considérons à la fois des méthodes anciennes comme l'analyse des cas complets, le remplacement par la moyenne ou le remplacement par le plus proche voisin, des méthodes d'imputation simple basées notamment sur la régression, et finalement différentes procédures d'imputation multiple. En partant d'un fichier sans aucune donnée manquante, nous avons créé neuf scénarios variant en fonction du nombre de données manquantes et de leur type (complètement aléatoire, aléatoire ou non-aléatoire). Mille ensembles de données ont été générés à partir de chaque scénario, puis les données manquantes ont été traitées selon différentes procédures et les moyennes, écarts-types et corrélations des variables imputées ont été comparés avec le fichier original sans données manquantes. L'influence du traitement des données manquantes sur un modèle de régression a aussi été évaluée. Nos résultats montrent que les méthodes qui permettent globalement d'arriver aux résultats les plus satisfaisants sont des méthodes basées sur l'imputation multiple. D'autres méthodes, comme par exemple l'imputation simple par régression, permettent aussi l'obtention de résultats intéressants, mais seulement dans certaines situations particulières. Certaines méthodes anciennes, comme l'analyse des cas complets, sont à bannir absolument.
Fichier principal
Vignette du fichier
p37.pdf (139.08 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

inria-00494698 , version 1 (24-06-2010)

Identifiants

  • HAL Id : inria-00494698 , version 1

Citer

Mélanie Glasson-Cicognani, André Berchtold. Imputation des données manquantes: Comparaison de différentes approches. 42èmes Journées de Statistique, 2010, Marseille, France, France. ⟨inria-00494698⟩

Collections

SFDS10
802 Consultations
7976 Téléchargements

Partager

Gmail Facebook X LinkedIn More