Représentation des données en XML pour l'analyse d'images de documents - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Communication Dans Un Congrès Année : 2007

Représentation des données en XML pour l'analyse d'images de documents

Abdel Belaïd
  • Fonction : Auteur
  • PersonId : 830137
Yves Rangoni
  • Fonction : Auteur
  • PersonId : 830537

Résumé

This paper presents the use of XML format for document modelling and describing the results of document analysis and recognition steps. We have chosen ALTO for physical structure stemmed from OCR, TEI for logical structures and METS for the relationships between both. As the system tools representations are not homogeneous, we have proposed a series of XSL transforms for harmonization. The experiments performed on two kinds of documents: scientific with a macro-structure and historical with micro-structures show how this standard choice can maintain the coherence of data along all the processing chain.
Nous présentons dans cet article l'utilisation du standard XML à la fois pour représenter les modèles de documents ainsi que pour décrire les résultats des différentes étapes de reconnaissance. Notre choix s'est porté sur ALTO pour la structure physique issue des OCR, sur la TEI pour la représentation de la structure logique reconnue par un système dédié, et enfin sur METS pour coordonner les deux dernières. Ne voulant pas toucher aux représentations internes des outils existants, nous avons proposé des transformations type XSL pour dériver ces formats XML. Les expérimentations menées à la fois sur la reconnaissance de documents modernes au niveau macro-structurel et sur des documents anciens au niveau micro-structurel montrent comment ce choix d'association permet de conserver les données cohérentes tout au long du processus mais aussi de proposer un résultat de rétro-conversion accessible, standardisé et pérenne.
Fichier non déposé

Dates et versions

inria-00618529 , version 1 (02-09-2011)

Identifiants

  • HAL Id : inria-00618529 , version 1

Citer

Abdel Belaïd, Yves Rangoni, Ingrid Flak. Représentation des données en XML pour l'analyse d'images de documents. Conférence Internationale sur l'Ecrit et le Document, Jul 2007, Nancy, France. ⟨inria-00618529⟩
78 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More