Application de mesures de distance pour la détection de problèmes de qualité de données

Melanie Herschel 1, 2 Laure Berti-Équille 3
2 OAK - Database optimizations and architectures for complex large data
LRI - Laboratoire de Recherche en Informatique, UP11 - Université Paris-Sud - Paris 11, Inria Saclay - Ile de France, CNRS - Centre National de la Recherche Scientifique : UMR8623
Résumé : Avec la multiplication des sources d'informations disponibles et l'accroissement des volumes et flux de données potentiellement accessibles, la qualité des données et, au sens large, la qualité des informations n'ont cessé de prendre une place de premier plan tant au niveau académique qu'au sein des entreprises. Si l'analyse des données, l'extraction de connaissances à partir des données et la prise de décision peuvent être réalisées sur des données inexactes, incomplètes, ambiguës et de qualité médiocre, on peut alors s'interroger sur le sens à donner aux résultats de ces analyses et remettre en cause, à juste titre, la qualité des connaissances ainsi " élaborées ", tout comme le bien-fondé des décisions prises. Aujourd'hui, il n'est donc plus question de négliger les données mais, bien au contraire, d'évaluer et de contrôler leur qualité dans les systèmes d'information, les bases et les entrepôts de données. Ainsi, ont été proposées de nombreuses mesures objectives, des méthodes et tout un outillage technique pour mener une expertise critique de la qualité des données dans ces systèmes, permettant aux utilisateurs de relativiser la confiance qu'ils pourraient accorder aux données et de leur permettre de mieux en adapter leur usage. L'impact et les coûts de la non-qualité des données (tout comme sa méconnaissance) retentissent à chaque étape d'un processus de traitement des données et de nombreuses techniques peuvent être combinées pour consolider et améliorer la qualité des données. L'objet de ce chapitre est de faire un tour d'horizon des méthodes et des techniques employées pour détecter deux des principaux problèmes de qualité des données que sont les doublons et les données aberrantes, en se concentrant sur les méthodes basées sur des mesures de distance. Nous passerons d'abord en revue les principales sources de problèmes de qualité des données ainsi que les solutions mises en œuvre communément dans la pratique. Ensuite, nous nous consacrerons à la définition des problèmes de détection de doublons et de détection de valeurs aberrantes et nous présenterons les mesures de distances pouvant leur être appliquées. Les approches de détection de doublons et de détection de valeurs aberrantes utilisant ces mesures sont présentées par la suite et elles seront illustrées par des exemples d'application réels.
Type de document :
Chapitre d'ouvrage
Laure Berti-Equille. La qualité et la gouvernance de données au service de la performance des entreprises, Hermes Science Publications, pp.145-175, 2012
Liste complète des métadonnées

https://hal.inria.fr/hal-00757559
Contributeur : Melanie Herschel <>
Soumis le : mardi 27 novembre 2012 - 11:22:34
Dernière modification le : lundi 28 mai 2018 - 14:38:02

Identifiants

  • HAL Id : hal-00757559, version 1

Collections

Citation

Melanie Herschel, Laure Berti-Équille. Application de mesures de distance pour la détection de problèmes de qualité de données. Laure Berti-Equille. La qualité et la gouvernance de données au service de la performance des entreprises, Hermes Science Publications, pp.145-175, 2012. 〈hal-00757559〉

Partager

Métriques

Consultations de la notice

283