Segmentation de flux de documents Application aux documents administratifs

Résumé : RÉSUMÉ. Cet article propose une approche de segmentation supervisée de flux de documents. L'approche traite le flux de documents comme une suite de paires de pages et étudie la relation qui existe entre elles pour déceler une continuité de documents ou une rupture. Dans un premier temps, des descripteurs sont extraits des pages et une approche est proposée pour fusionner ces descripteurs en un seul vecteur qui modélise la relation entre les paires de pages. Cette représentation est fournie à un classifieur binaire qui la classifie comme étant une rupture (synonyme de segmentation) ou une continuité. Dans le cas d'une rupture, nous considérons que nous avons atteint la limite d'un document complet et l'analyse du flux continue en commençant par un nouveau document. En cas d'une continuité, les deux pages sont considérées comme appartenant à un même document. S'il y a une incertitude sur la classe de la limite, un rejet est décidé et les pages analysées jusqu'à ce point sont considérées comme un « fragment » on réalise ici une sur-segmentation. Cette classification donne de bons résultats approchant 90% sur certains documents, ce qui est élevé à ce niveau du système. ABSTRACT. This paper proposes a document flow supervised segmentation approach. Our algorithm treats the flow of documents as couples of consecutive pages and examines the relationship that exists between them in order to present a document continuity or rupture. In a first step, descriptors are extracted from the pages and an approach is proposed to merge these descriptors into a single vector that models the relationship between pairs of pages. This representation is provided to a binary classifier that classifies it as either a rupture (synonymous with segmentation) or continuity. In case of a rupture, we consider that the limit of a complete document has been reached and the stream analysis continues by starting a new document. In case of continuity, the two pages are considered to belong to the same document. If there is an uncertainty on the class of the limit, a rejection is decided and the pages analyzed until this point are considered as a "fragment" and an over-segmentation is applied. The classification provides good results approaching 90% on certain documents, which is high at this level of the system. MOTS-CLÉS : Segmentation de flux de documents, descripteurs textuels, classification.
Type de document :
Communication dans un congrès
Conférence Internationale Francophone sur l'Ecrit et le Document, Mar 2014, Nancy, France
Liste complète des métadonnées

https://hal.inria.fr/hal-01111746
Contributeur : Abdel Belaid <>
Soumis le : vendredi 30 janvier 2015 - 20:39:19
Dernière modification le : mardi 24 avril 2018 - 13:30:41
Document(s) archivé(s) le : samedi 12 septembre 2015 - 07:15:56

Fichier

Hani-finale.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01111746, version 1

Collections

Citation

Hani Daher, Abdel Belaïd, Vincent Poulain d'Andecy. Segmentation de flux de documents Application aux documents administratifs. Conférence Internationale Francophone sur l'Ecrit et le Document, Mar 2014, Nancy, France. 〈hal-01111746〉

Partager

Métriques

Consultations de la notice

339

Téléchargements de fichiers

154