The retroconversion in Digital Libraries

Abdel Belaïd 1
1 LORIASI - Loria in the Society of Information
LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications
Résumé : Ce travail s'inscrit dans le cadre du projet de bibliothèque virtuelle Calliope dont l'objectif est de permettre l'accès à la documentation scientifique physiquement stockée sur des sites distants. Calliope développe le concept de télé-photocopie, c'est-à-dire la numérisation à la demande d'articles scientifiques et leur impression à distance. La sélection des articles se fait à travers un serveur de tables des matières fournies sous forme électronique par une entité tierce. Aussi importante que soit cette base de données de tables des matières, de nombreux périodiques n'y figurent pas et ne peuvent être intégrés à Calliope à moins de procéder à une ressaisie manuelle toujours longue et fastidieuse. C'est le cas des actes de congrès dont les tables de matières sont souvent longues et leur structure non normalisée. La solution retenue a été de disposer d'outils adaptés à la reconnaissance de ces tables des matières. Le travail proposé consiste à numériser les tables de matières et à reconnaître automatiquement leurs articles. Le résultat est affiché sous forme d'un fichier HTML permettant, en cliquant sur les articles, d'ouvrir ceux-ci à la page indiquée. La méthode de reconnaissance utilisée est basée sur un étiquetage morphologique du texte (reconnu par OCR) et sa réduction en formes canoniques représentant les champs des articles. La méthode d'étiquetage, de type partie du discours, permet de corriger les mots mal reconnus par OCR et de les intégrer dans leur voisinage par analyse du contexte. La méthode s'adapte automatiquement à chaque nouvelle structure, évitant ainsi l'emploi d'un modèle a priori figé, et l'ouvrant de fait à l'analyse de structures variables comme celles des actes de congrès. Le but de cet article est de décrire le principe de cette méthode d'étiquetage et de montrer à travers des exemples, les différentes étapes de marquage, de correction et de reconnaissance de tables de matières.
Type de document :
Communication dans un congrès
Conférence internationale sur les Sciences de l'information - CISI'1999, 1999, Tunis, Tunisia. 1999
Liste complète des métadonnées

https://hal.inria.fr/inria-00098924
Contributeur : Publications Loria <>
Soumis le : mardi 26 septembre 2006 - 08:40:22
Dernière modification le : jeudi 11 janvier 2018 - 06:19:48

Identifiants

  • HAL Id : inria-00098924, version 1

Collections

Citation

Abdel Belaïd. The retroconversion in Digital Libraries. Conférence internationale sur les Sciences de l'information - CISI'1999, 1999, Tunis, Tunisia. 1999. 〈inria-00098924〉

Partager

Métriques

Consultations de la notice

50