Une méthode d'étiquetage morpho-syntaxique pour la reconnaissance de tables de matières

Abdel Belaïd 1 Yannick Toussaint 2
1 READ - READ
LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications
2 ORPAILLEUR - Knowledge representation, reasonning
INRIA Lorraine, LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications
Résumé : Nous décrivons dans cet article une méthode d'étiquetage linguistique en vue de la reconnaissance de la structure des articles des tables de matières (TdM). Le résultat sert à fournir le serveur de tables de matières de Calliope, un outil de consultation automatique de la documentation à distance, réalisé en collaboration entre Xerox et l'INRIA. La méthode d'étiquetage opère sur un texte ASCII reconnu par OCR, comprenant des erreurs éventuelles de reconnaissance de caractères et de mise en page. Elle est initialisée par un étiquetage primaire des éléments textuels par référence à des dictionnaires. Les étiquettes significatives sont ensuite regroupées en syntagmes conduisant par réduction à des formes canoniques identifiantes du titre et des auteurs. Cet étiquetage permet de formuler des hypothèses d'extension syntaxique sur les termes inconnus et de les intégrer dans les syntagmes voisins. Pour les articles erronés, nous appliquons le modèle de structuration généré automatiquement à partir des articles bien identifiés. Le prototype étudié opère avec une grande satisfaction sur des TdMs de différentes mises en page et qualités de reconnaissance de caractères. Sans intervention manuelle, nous obtenons un taux de segmentation d'articles de l'ordre de 95.41% sur 38 revues scientifiques comprenant 2703 articles et un taux de 81.74% d'extraction de champs corrects.
Type de document :
Communication dans un congrès
Colloque International Francophone sur l'Ecrit et le Document - CIFEd'00, Jul 2000, Lyon, France, 10 p, 2000
Liste complète des métadonnées

https://hal.inria.fr/inria-00099146
Contributeur : Publications Loria <>
Soumis le : mardi 26 septembre 2006 - 08:51:21
Dernière modification le : jeudi 11 janvier 2018 - 06:19:59

Identifiants

  • HAL Id : inria-00099146, version 1

Collections

Citation

Abdel Belaïd, Yannick Toussaint. Une méthode d'étiquetage morpho-syntaxique pour la reconnaissance de tables de matières. Colloque International Francophone sur l'Ecrit et le Document - CIFEd'00, Jul 2000, Lyon, France, 10 p, 2000. 〈inria-00099146〉

Partager

Métriques

Consultations de la notice

125