Représentation des données en XML pour l'analyse d'images de documents - Inria - Institut national de recherche en sciences et technologies du numérique Access content directly
Conference Papers Year : 2007

Représentation des données en XML pour l'analyse d'images de documents

Abdel Belaïd
  • Function : Author
  • PersonId : 830137
Yves Rangoni
  • Function : Author
  • PersonId : 830537

Abstract

This paper presents the use of XML format for document modelling and describing the results of document analysis and recognition steps. We have chosen ALTO for physical structure stemmed from OCR, TEI for logical structures and METS for the relationships between both. As the system tools representations are not homogeneous, we have proposed a series of XSL transforms for harmonization. The experiments performed on two kinds of documents: scientific with a macro-structure and historical with micro-structures show how this standard choice can maintain the coherence of data along all the processing chain.
Nous présentons dans cet article l'utilisation du standard XML à la fois pour représenter les modèles de documents ainsi que pour décrire les résultats des différentes étapes de reconnaissance. Notre choix s'est porté sur ALTO pour la structure physique issue des OCR, sur la TEI pour la représentation de la structure logique reconnue par un système dédié, et enfin sur METS pour coordonner les deux dernières. Ne voulant pas toucher aux représentations internes des outils existants, nous avons proposé des transformations type XSL pour dériver ces formats XML. Les expérimentations menées à la fois sur la reconnaissance de documents modernes au niveau macro-structurel et sur des documents anciens au niveau micro-structurel montrent comment ce choix d'association permet de conserver les données cohérentes tout au long du processus mais aussi de proposer un résultat de rétro-conversion accessible, standardisé et pérenne.
No file

Dates and versions

inria-00618529 , version 1 (02-09-2011)

Identifiers

  • HAL Id : inria-00618529 , version 1

Cite

Abdel Belaïd, Yves Rangoni, Ingrid Flak. Représentation des données en XML pour l'analyse d'images de documents. Conférence Internationale sur l'Ecrit et le Document, Jul 2007, Nancy, France. ⟨inria-00618529⟩
78 View
0 Download

Share

Gmail Facebook X LinkedIn More