Segmentation et classification des zones d'une page de document

Jean-Marc Vauthier 1 Abdel Belaïd 1
1 READ - Recognition of writing and analysis of documents
LORIA - NLPKD - Department of Natural Language Processing & Knowledge Discovery
Résumé : Cet article propose une méthode de segmentation de documents complexes en zones d'intérêt en s'appuyant à la fois sur le contenu textuel et la forme. Le contenu textuel correspond aux sorties lisibles validées par un dictionnaire et des expressions régulières adaptées aux données bruitées. Ceci permet en parallèle de localiser des textes d'intérêt (adresses, numéros de téléphone, formules de politesse, etc.). Le contenu non lisible est regroupé en régions physiques en prenant en compte la taille et l'éloignement des composantes connexes en vue de l'identification de zones spécifiques, comme des logos, des signatures et des tampons. Pour cela, des descripteurs morphologiques sont appliqués. Cette classification s'appuie sur une méthode de boosting modifiée associée à des arbres de décision. La modification a porté sur le calcul de la probabilité d'appartenance d'un individu à une classe. Par rapport à l'action actuelle des OCRs qui classent le texte, les tableaux et les images, les résultats de notre méthode accroissent non seulement ces performances mais elle permet aussi à des zones à faible consensus comme, les annotations manuscrites, les logos, les tampons et surtout les signatures d'être reconnues.
Type de document :
Communication dans un congrès
CIFED-CORIA, Mar 2012, Bordeaux, France. 2012
Liste complète des métadonnées

Littérature citée [3 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/hal-00779232
Contributeur : Abdel Belaid <>
Soumis le : mercredi 23 janvier 2013 - 17:28:07
Dernière modification le : jeudi 11 janvier 2018 - 06:25:25
Document(s) archivé(s) le : mercredi 24 avril 2013 - 03:54:26

Fichier

cifed2012_submission_24.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-00779232, version 1

Collections

Citation

Jean-Marc Vauthier, Abdel Belaïd. Segmentation et classification des zones d'une page de document. CIFED-CORIA, Mar 2012, Bordeaux, France. 2012. 〈hal-00779232〉

Partager

Métriques

Consultations de la notice

204

Téléchargements de fichiers

426