Représentation des données en XML pour l'analyse d'images de documents

Abdel Belaïd 1 Yves Rangoni 1 Ingrid Flak 2
1 READ - READ
LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications
2 TALARIS - Natural Language Processing: representation, inference and semantics
Inria Nancy - Grand Est, LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications
Résumé : Nous présentons dans cet article l'utilisation du standard XML à la fois pour représenter les modèles de documents ainsi que pour décrire les résultats des différentes étapes de reconnaissance. Notre choix s'est porté sur ALTO pour la structure physique issue des OCR, sur la TEI pour la représentation de la structure logique reconnue par un système dédié, et enfin sur METS pour coordonner les deux dernières. Ne voulant pas toucher aux représentations internes des outils existants, nous avons proposé des transformations type XSL pour dériver ces formats XML. Les expérimentations menées à la fois sur la reconnaissance de documents modernes au niveau macro-structurel et sur des documents anciens au niveau micro-structurel montrent comment ce choix d'association permet de conserver les données cohérentes tout au long du processus mais aussi de proposer un résultat de rétro-conversion accessible, standardisé et pérenne.
Type de document :
Communication dans un congrès
Conférence Internationale sur l'Ecrit et le Document, Jul 2007, Nancy, France. 2007
Liste complète des métadonnées

https://hal.inria.fr/inria-00618529
Contributeur : Abdel Belaid <>
Soumis le : vendredi 2 septembre 2011 - 09:34:44
Dernière modification le : jeudi 11 janvier 2018 - 06:21:35

Identifiants

  • HAL Id : inria-00618529, version 1

Collections

Citation

Abdel Belaïd, Yves Rangoni, Ingrid Flak. Représentation des données en XML pour l'analyse d'images de documents. Conférence Internationale sur l'Ecrit et le Document, Jul 2007, Nancy, France. 2007. 〈inria-00618529〉

Partager

Métriques

Consultations de la notice

83