Nettoyage des données XML : combien ça coûte ?

Laure Berti-Équille 1
1 TEXMEX - Multimedia content-based indexing
IRISA - Institut de Recherche en Informatique et Systèmes Aléatoires, Inria Rennes – Bretagne Atlantique
Résumé : L'objectif de cet article est de présenter un travail en cours qui consiste à proposer, implanter et valider expérimentalement un modèle pour estimer le coût d'un processus de nettoyage de documents XML. Notre approche de calcul de coût est basée sur une méthode par calibration selon une analyse probabiliste. Pour cela, nous proposons de calculer des probabilités de pollution et au préalable de détection des différents types de pollutions. Pour valider notre modèle, nous avons choisi de polluer artificiellement une collection de données XML avec l'ensemble des types d'erreurs possibles (erreurs typographiques, ajout de doublons, de valeurs manquantes, tronquées, censurées, etc.) et d'estimer, grâce au modèle proposé, le nombre et le coût des opérations nécessaires au nettoyage des données afin de proposer des stratégies de réparation ciblées et économes. Les expérimentations en cours ne sont pas rapportées dans cet article.
Complete list of metadatas

https://hal.inria.fr/hal-01857338
Contributor : Laure Berti-Equille <>
Submitted on : Wednesday, August 15, 2018 - 12:38:06 PM
Last modification on : Friday, November 16, 2018 - 1:24:08 AM
Long-term archiving on : Friday, November 16, 2018 - 12:58:38 PM

File

berti-equilleDKQ05.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : hal-01857338, version 1

Citation

Laure Berti-Équille. Nettoyage des données XML : combien ça coûte ?. 1er Atelier Qualités des Données et des Connaissances (QDC 2005) en conjonction avec la conférence Extraction et Gestion des Connaissances (EGC’2005), Jan 2005, Paris, France. pp.11-18. ⟨hal-01857338⟩

Share

Metrics

Record views

246

Files downloads

24