Réhabilitons les doublons !

Emmanuel Nauer 1
1 ORPAILLEUR - Knowledge representation, reasonning
INRIA Lorraine, LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications
Résumé : Les doublons désignent toutes les références bibliographiques, au sein d'une ou de plusieurs bases de données, qui font référence à la même publication : même(s) auteur(s), titre et support de publication. La prise en compte des doublons est une nécessité dans le cadre d'analyses bibliométriques car les doublons expriment une certaine redondance d'information qui fausse les dénombrements de concepts et, par extension, les analyses de données qui se fondent sur ces dénombrements. l'approche documentaire classique, appelée dédoublonnage, vise à résoudre ce problème en ne conservant qu'une seule occurrence de référence à un même document. Cependant, dans un contexte multibases, les doublons ne contiennent pas exactement les mêmes informations. On peut noter la présence variable de certains champs, des représentations différentes d'un même élément d'information, et particulièrement des descriptions différentes sur le contenu des documents à travers les indexations propres à chacune des sources. Nous traitons dans cet article plusieurs aspects de la prise en compte des doublons dans un contexte multibases. Nous décrivons tout d'abord les particularités de l'identification des doublons dans un tel contexte, puis nous proposons une approche pour prendre en compte ces particularités. Nous montrons alors comment il est possible d'exploiter explicitement les informations contenues dans doublons pour extraire de nouvelles connaissances.
Document type :
Conference papers
Complete list of metadatas

https://hal.inria.fr/inria-00100658
Contributor : Publications Loria <>
Submitted on : Tuesday, September 26, 2006 - 2:48:42 PM
Last modification on : Friday, May 24, 2019 - 10:58:02 AM

Identifiers

  • HAL Id : inria-00100658, version 1

Collections

Citation

Emmanuel Nauer. Réhabilitons les doublons !. Veille Stratégique Scientifique et Technique - VSST 2001, FPC/UPC - SFBA - IRIT, 2001, Barcelona, Spain, pp.35-48. ⟨inria-00100658⟩

Share

Metrics

Record views

169