Nettoyage des données XML : combien ça coûte ?

Laure Berti-Équille

Communication Dans Un Congrès Année : 2005

Nettoyage des données XML : combien ça coûte ?

(1)

Laure Berti-Équille

Fonction : Auteur
PersonId : 19540
IdHAL : laure-berti-equille
ORCID : 0000-0002-8046-0570
IdRef : 130675725

Multimedia content-based indexing

Résumé

L'objectif de cet article est de présenter un travail en cours qui consiste à proposer, implanter et valider expérimentalement un modèle pour estimer le coût d'un processus de nettoyage de documents XML. Notre approche de calcul de coût est basée sur une méthode par calibration selon une analyse probabiliste. Pour cela, nous proposons de calculer des probabilités de pollution et au préalable de détection des différents types de pollutions. Pour valider notre modèle, nous avons choisi de polluer artificiellement une collection de données XML avec l'ensemble des types d'erreurs possibles (erreurs typographiques, ajout de doublons, de valeurs manquantes, tronquées, censurées, etc.) et d'estimer, grâce au modèle proposé, le nombre et le coût des opérations nécessaires au nettoyage des données afin de proposer des stratégies de réparation ciblées et économes. Les expérimentations en cours ne sont pas rapportées dans cet article.

Domaines

Base de données [cs.DB] Autres [stat.ML] Machine Learning [stat.ML] Apprentissage [cs.LG]

Fichier principal

berti-equilleDKQ05.pdf (724.52 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Laure Berti-Equille : Connectez-vous pour contacter le contributeur

https://inria.hal.science/hal-01857338

Soumis le : mercredi 15 août 2018-12:38:06

Dernière modification le : vendredi 24 mars 2023-14:53:08

Archivage à long terme le : vendredi 16 novembre 2018-12:58:38

Dates et versions

hal-01857338 , version 1 (15-08-2018)

Identifiants

HAL Id : hal-01857338 , version 1

Citer

Laure Berti-Équille. Nettoyage des données XML : combien ça coûte ?. 1er Atelier Qualités des Données et des Connaissances (QDC 2005) en conjonction avec la conférence Extraction et Gestion des Connaissances (EGC’2005), Jan 2005, Paris, France. pp.11-18. ⟨hal-01857338⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

EC-PARIS UNIV-RENNES1 CNRS INRIA INSA-RENNES IRISA INRIA2 UR1-MATH-STIC UR1-UFR-ISTIC UNIV-RENNES INSA-GROUPE UR1-MATH-NUM

141 Consultations

24 Téléchargements

Nettoyage des données XML : combien ça coûte ?

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager