Séparation manuscrit et imprimé dans des documents administratifs complexes par utilisation de SVM et regroupement - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Communication Dans Un Congrès Année : 2012

Séparation manuscrit et imprimé dans des documents administratifs complexes par utilisation de SVM et regroupement

Résumé

This paper proposes a methodology for the segmentation of printed and handwritten zones in document images. The documents are mainly of administrative type in an unconstrained industrial framework. We have to deal with a large number each day. They can come from different clients so as to their content, layout and digitization quality vary a lot. The goal is to isolate handwritten notes from the other parts, in order to apply in a second time some dedicated processing on the printed and the handwritten layers. To achieve that, we propose a four step procedure: preprocessing, geometrical layout analysis at pseudo-word level, classification using a SVM, then post-correction with context integration allowing a better quality. The classification rates are around 90% for segmenting printed, handwritten and noisy zones.
Cet article propose une méthodologie pour la séparation de l'imprimé et du manuscrit dans des images de documents. Les documents à traiter sont majoritairement de type administratif dans un environnement industriel sans contrainte, à savoir une masse quotidienne et importante de pages à traiter avec une grande diversité de contenu et de qualité de numérisation. L'objectif est d'isoler toutes les annotations manuscrites afin d'effectuer par la suite des traitements spécifiques sur le plan du manuscrit et sur le plan de l'imprimé. Nous proposons une solution en plusieurs étapes qui sont: un prétraitement des images, une segmentation du contenu en "pseudo-mots", une reconnaissance par séparateur à vaste marge de la classe d'appartenance, puis une post-correction utilisant le contexte pour affiner la segmentation. Les résultats obtenus sont de l'ordre de 90% de bonne séparation entre l'imprimé, le manuscrit et le bruit.
Fichier principal
Vignette du fichier
cifed_version_publiee_didier.pdf (994.57 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-00779237 , version 1 (23-01-2013)

Identifiants

  • HAL Id : hal-00779237 , version 1

Citer

Didier Grzejszczak, Yves Rangoni, Abdel Belaïd. Séparation manuscrit et imprimé dans des documents administratifs complexes par utilisation de SVM et regroupement. CIFED-CORIA, Mar 2012, Bordeaux, France. ⟨hal-00779237⟩
179 Consultations
288 Téléchargements

Partager

Gmail Facebook X LinkedIn More