Nettoyage des données XML : combien ça coûte ? - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Communication Dans Un Congrès Année : 2005

Nettoyage des données XML : combien ça coûte ?

Résumé

L'objectif de cet article est de présenter un travail en cours qui consiste à proposer, implanter et valider expérimentalement un modèle pour estimer le coût d'un processus de nettoyage de documents XML. Notre approche de calcul de coût est basée sur une méthode par calibration selon une analyse probabiliste. Pour cela, nous proposons de calculer des probabilités de pollution et au préalable de détection des différents types de pollutions. Pour valider notre modèle, nous avons choisi de polluer artificiellement une collection de données XML avec l'ensemble des types d'erreurs possibles (erreurs typographiques, ajout de doublons, de valeurs manquantes, tronquées, censurées, etc.) et d'estimer, grâce au modèle proposé, le nombre et le coût des opérations nécessaires au nettoyage des données afin de proposer des stratégies de réparation ciblées et économes. Les expérimentations en cours ne sont pas rapportées dans cet article.
Fichier principal
Vignette du fichier
berti-equilleDKQ05.pdf (724.52 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-01857338 , version 1 (15-08-2018)

Identifiants

  • HAL Id : hal-01857338 , version 1

Citer

Laure Berti-Équille. Nettoyage des données XML : combien ça coûte ?. 1er Atelier Qualités des Données et des Connaissances (QDC 2005) en conjonction avec la conférence Extraction et Gestion des Connaissances (EGC’2005), Jan 2005, Paris, France. pp.11-18. ⟨hal-01857338⟩
141 Consultations
24 Téléchargements

Partager

Gmail Facebook X LinkedIn More