La qualité des données comme condition à la qualité des connaissances : un état de l'art

Laure Berti-Équille 1
1 TEXMEX - Multimedia content-based indexing
IRISA - Institut de Recherche en Informatique et Systèmes Aléatoires, Inria Rennes – Bretagne Atlantique
Résumé : Les travaux actuels sur l'extraction de connaissances à partir des données (ECD) se focalisent sur la recherche de règles intéressantes dont on souhaite pouvoir qualifier l'intérêt ou le caractère exceptionnel, mais dont la validité dépend bien évidemment de celle des données. En amont du processus d'ECD, il semble donc essentiel d'évaluer la qualité des données stockées dans les bases et entrepôts de données afin de : (1) proposer aux utilisateurs une expertise critique de la qualité du contenu d'un système, (2) orienter l'extraction des connaissances en fonction d'un profil ciblé d'utilisateurs et de décideurs, (3) permettre à ceux-ci de relativiser la confiance qu'ils pourraient accorder aux données et aux règles extraites, et leur permettre ainsi de mieux en adapter leur usage, (4) assurer enfin la validité et l'intérêt des connaissances extraites à partir des données. Cet article fait une synthèse de l'état de l'art dans le domaine de la qualité des données en présentant, dans un premier temps, les causes de la non-qualité des données, puis en décrivant un panorama des travaux sur la qualité des données, travaux pertinents dès lors que l'on s'intéresse à modéliser, mesurer et à améliorer la qualité des connaissances "élaborées" à partir des données. Enfin, l'article propose d'exploiter les méta-données décrivant la qualité des données dans le processus d'ECD.
Document type :
Journal articles
Complete list of metadatas

Cited literature [49 references]  Display  Hide  Download

https://hal.inria.fr/hal-01856198
Contributor : Laure Berti-Equille <>
Submitted on : Friday, August 10, 2018 - 8:54:48 AM
Last modification on : Friday, November 16, 2018 - 1:22:00 AM
Long-term archiving on : Sunday, November 11, 2018 - 12:55:01 PM

File

1000108.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : hal-01856198, version 1

Citation

Laure Berti-Équille. La qualité des données comme condition à la qualité des connaissances : un état de l'art. Revue Nationale des Technologies de l'Information, 2004, Numéro spécial “Mesures de qualité pour la fouille de données”, ⟨https://editions-rnti.fr/render_pdf.php?p=1000108⟩. ⟨hal-01856198⟩

Share

Metrics

Record views

476

Files downloads

65