The retroconversion in Digital Libraries - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Communication Dans Un Congrès Année : 1999

The retroconversion in Digital Libraries

Résumé

Ce travail s'inscrit dans le cadre du projet de bibliothèque virtuelle Calliope dont l'objectif est de permettre l'accès à la documentation scientifique physiquement stockée sur des sites distants. Calliope développe le concept de télé-photocopie, c'est-à-dire la numérisation à la demande d'articles scientifiques et leur impression à distance. La sélection des articles se fait à travers un serveur de tables des matières fournies sous forme électronique par une entité tierce. Aussi importante que soit cette base de données de tables des matières, de nombreux périodiques n'y figurent pas et ne peuvent être intégrés à Calliope à moins de procéder à une ressaisie manuelle toujours longue et fastidieuse. C'est le cas des actes de congrès dont les tables de matières sont souvent longues et leur structure non normalisée. La solution retenue a été de disposer d'outils adaptés à la reconnaissance de ces tables des matières. Le travail proposé consiste à numériser les tables de matières et à reconnaître automatiquement leurs articles. Le résultat est affiché sous forme d'un fichier HTML permettant, en cliquant sur les articles, d'ouvrir ceux-ci à la page indiquée. La méthode de reconnaissance utilisée est basée sur un étiquetage morphologique du texte (reconnu par OCR) et sa réduction en formes canoniques représentant les champs des articles. La méthode d'étiquetage, de type partie du discours, permet de corriger les mots mal reconnus par OCR et de les intégrer dans leur voisinage par analyse du contexte. La méthode s'adapte automatiquement à chaque nouvelle structure, évitant ainsi l'emploi d'un modèle a priori figé, et l'ouvrant de fait à l'analyse de structures variables comme celles des actes de congrès. Le but de cet article est de décrire le principe de cette méthode d'étiquetage et de montrer à travers des exemples, les différentes étapes de marquage, de correction et de reconnaissance de tables de matières.

Domaines

Autre [cs.OH]
Fichier non déposé

Dates et versions

inria-00098924 , version 1 (26-09-2006)

Identifiants

  • HAL Id : inria-00098924 , version 1

Citer

Abdel Belaïd. The retroconversion in Digital Libraries. Conférence internationale sur les Sciences de l'information - CISI'1999, 1999, Tunis, Tunisia. ⟨inria-00098924⟩
31 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More