Skip to Main content Skip to Navigation
Conference papers

Une méthode d'étiquetage morpho-syntaxique pour la reconnaissance de tables de matières

Abdel Belaïd 1 Yannick Toussaint 2
1 READ - READ
LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications
2 ORPAILLEUR - Knowledge representation, reasonning
INRIA Lorraine, LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications
Résumé : Nous décrivons dans cet article une méthode d'étiquetage linguistique en vue de la reconnaissance de la structure des articles des tables de matières (TdM). Le résultat sert à fournir le serveur de tables de matières de Calliope, un outil de consultation automatique de la documentation à distance, réalisé en collaboration entre Xerox et l'INRIA. La méthode d'étiquetage opère sur un texte ASCII reconnu par OCR, comprenant des erreurs éventuelles de reconnaissance de caractères et de mise en page. Elle est initialisée par un étiquetage primaire des éléments textuels par référence à des dictionnaires. Les étiquettes significatives sont ensuite regroupées en syntagmes conduisant par réduction à des formes canoniques identifiantes du titre et des auteurs. Cet étiquetage permet de formuler des hypothèses d'extension syntaxique sur les termes inconnus et de les intégrer dans les syntagmes voisins. Pour les articles erronés, nous appliquons le modèle de structuration généré automatiquement à partir des articles bien identifiés. Le prototype étudié opère avec une grande satisfaction sur des TdMs de différentes mises en page et qualités de reconnaissance de caractères. Sans intervention manuelle, nous obtenons un taux de segmentation d'articles de l'ordre de 95.41% sur 38 revues scientifiques comprenant 2703 articles et un taux de 81.74% d'extraction de champs corrects.
Document type :
Conference papers
Complete list of metadata

https://hal.inria.fr/inria-00099146
Contributor : Publications Loria <>
Submitted on : Tuesday, September 26, 2006 - 8:51:21 AM
Last modification on : Friday, February 26, 2021 - 3:28:07 PM

Identifiers

  • HAL Id : inria-00099146, version 1

Collections

Citation

Abdel Belaïd, Yannick Toussaint. Une méthode d'étiquetage morpho-syntaxique pour la reconnaissance de tables de matières. Colloque International Francophone sur l'Ecrit et le Document - CIFEd'00, Jul 2000, Lyon, France, 10 p. ⟨inria-00099146⟩

Share

Metrics

Record views

149