Segmentation et classification des zones d'une page de document

Jean-Marc Vauthier; Abdel Belaïd

Communication Dans Un Congrès Année : 2012

Segmentation et classification des zones d'une page de document

(1) , (1)

Jean-Marc Vauthier

Fonction : Auteur

Recognition of writing and analysis of documents

Abdel Belaïd

Fonction : Auteur
PersonId : 856537

Recognition of writing and analysis of documents

Résumé

This paper proposes a methodology for complex document segmentation based on textual content and shape. The textual content corresponds with printed text and it is verified by text-word analysis using dictionary and regular expressions variable that are adapted to noise. This allows knowing where the interested expressions are placed (address, phone number etc.) The non-textual content is segmented in zone considering size and distance between connected components in order to classify zones like logo, signature, and table. To make that, features are extracted like run length, Bi level Co-occurrence... This classification is based on a modified boosting method and decision trees. The modification is about the calculation of the probability to draw training data. Compare to OCRs that are able to classify text, tables and pictures, our methodology increases the performance and allows the detection of other zones like handwritten text, logo, signature, table and tampon.

Cet article propose une méthode de segmentation de documents complexes en zones d'intérêt en s'appuyant à la fois sur le contenu textuel et la forme. Le contenu textuel correspond aux sorties lisibles validées par un dictionnaire et des expressions régulières adaptées aux données bruitées. Ceci permet en parallèle de localiser des textes d'intérêt (adresses, numéros de téléphone, formules de politesse, etc.). Le contenu non lisible est regroupé en régions physiques en prenant en compte la taille et l'éloignement des composantes connexes en vue de l'identification de zones spécifiques, comme des logos, des signatures et des tampons. Pour cela, des descripteurs morphologiques sont appliqués. Cette classification s'appuie sur une méthode de boosting modifiée associée à des arbres de décision. La modification a porté sur le calcul de la probabilité d'appartenance d'un individu à une classe. Par rapport à l'action actuelle des OCRs qui classent le texte, les tableaux et les images, les résultats de notre méthode accroissent non seulement ces performances mais elle permet aussi à des zones à faible consensus comme, les annotations manuscrites, les logos, les tampons et surtout les signatures d'être reconnues.

Mots clés

document segmentation OCR boosting classification

Domaines

Traitement du signal et de l'image [eess.SP] Traitement du signal et de l'image [eess.SP]

Fichier principal

cifed2012_submission_24.pdf (1.24 Mo)

Origine : Fichiers produits par l'(les) auteur(s)

Abdel Belaid : Connectez-vous pour contacter le contributeur

https://inria.hal.science/hal-00779232

Soumis le : mercredi 23 janvier 2013-17:28:07

Dernière modification le : lundi 11 septembre 2023-17:41:19

Archivage à long terme le : mercredi 24 avril 2013-03:54:26

Dates et versions

hal-00779232 , version 1 (23-01-2013)

Identifiants

HAL Id : hal-00779232 , version 1

Citer

Jean-Marc Vauthier, Abdel Belaïd. Segmentation et classification des zones d'une page de document. CIFED-CORIA, Mar 2012, Bordeaux, France. ⟨hal-00779232⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS INRIA UNIV-LORRAINE LORIA LORIA-NLPKD

177 Consultations

414 Téléchargements

Segmentation et classification des zones d'une page de document

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager