Réhabilitons les doublons !

Emmanuel Nauer 1
1 ORPAILLEUR - Knowledge representation, reasonning
INRIA Lorraine, LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications
Résumé : Les doublons désignent toutes les références bibliographiques, au sein d'une ou de plusieurs bases de données, qui font référence à la même publication : même(s) auteur(s), titre et support de publication. La prise en compte des doublons est une nécessité dans le cadre d'analyses bibliométriques car les doublons expriment une certaine redondance d'information qui fausse les dénombrements de concepts et, par extension, les analyses de données qui se fondent sur ces dénombrements. l'approche documentaire classique, appelée dédoublonnage, vise à résoudre ce problème en ne conservant qu'une seule occurrence de référence à un même document. Cependant, dans un contexte multibases, les doublons ne contiennent pas exactement les mêmes informations. On peut noter la présence variable de certains champs, des représentations différentes d'un même élément d'information, et particulièrement des descriptions différentes sur le contenu des documents à travers les indexations propres à chacune des sources. Nous traitons dans cet article plusieurs aspects de la prise en compte des doublons dans un contexte multibases. Nous décrivons tout d'abord les particularités de l'identification des doublons dans un tel contexte, puis nous proposons une approche pour prendre en compte ces particularités. Nous montrons alors comment il est possible d'exploiter explicitement les informations contenues dans doublons pour extraire de nouvelles connaissances.
Type de document :
Communication dans un congrès
FPC/UPC - SFBA - IRIT. Veille Stratégique Scientifique et Technique - VSST 2001, 2001, Barcelona, Spain, 1, pp.35-48, 2001
Liste complète des métadonnées

https://hal.inria.fr/inria-00100658
Contributeur : Publications Loria <>
Soumis le : mardi 26 septembre 2006 - 14:48:42
Dernière modification le : jeudi 11 janvier 2018 - 06:19:52

Identifiants

  • HAL Id : inria-00100658, version 1

Collections

Citation

Emmanuel Nauer. Réhabilitons les doublons !. FPC/UPC - SFBA - IRIT. Veille Stratégique Scientifique et Technique - VSST 2001, 2001, Barcelona, Spain, 1, pp.35-48, 2001. 〈inria-00100658〉

Partager

Métriques

Consultations de la notice

143