Semi-automatic and interactive rule inference with or without ground-truth for document structure recognition - Archive ouverte HAL Access content directly
Theses Year : 2016

Semi-automatic and interactive rule inference with or without ground-truth for document structure recognition

Inférence semi-automatique et interactive de règles avec ou sans vérité terrain pour la reconnaissance de structure de documents

(1, 2)
1
2

Abstract

The documents to analyze in the document structure analysis are getting more and more complex and the corpora are more and more heterogeneous. We propose a new method, the Eyes Wide Open method (EWO) to introduce a semi-automatic and interactive learning step in the building of grammatical descriptions. With the EWO method, it is possible to benefit from the expressiveness of the syntactical methods while having the adaptability of the statistical methods. The EWO method allows the rules inference to build progressively the full grammatical description of the documents. The rules inference concerns both the logical and the physical structure of the documents. The EWO method relies on two major elements: the automatic discovering of structures with clustering algorithm and an interaction with the user to give sense to the automatically detected structures. Our method allows the rules inference without annotated ground truth on the documents. To do so, the EWO method relies on the analysis of redundancies on big volume of non annotated documents. The redundancy detection is performed automatically with a clustering algorithm. A data reliability enhancement step is performed in interaction with the user on the automatically detected elements to obtain the training labeled data. The EWO method allows an exhaustive and concise view of the data to analyze. It allows a better use of the corpus than for the manually described syntactical method. Furthermore, it allows a better management of the rare cases than what is possible with the statistical method. We validated the efficiency of this method on documents with various structures (handwritten business letters, marriage records, forms...). For each corpus, a grammatical description was generated using the EWO method, obtaining at least similar results to the pre-existing manually described systems. The methowas also successfully applied to a large non annotated corpus.
Les documents à traiter dans le domaine de l'analyse de la structure de documents sont de plus en plus complexes et les corpus de plus en plus hétérogènes. Nous proposons une nouvelle méthode, la méthode Eyes Wide Open (EWO) pour introduire une phase d'apprentissage semi-automatique et interactive dans la construction de descriptions grammaticales. Grâce à la méthode EWO, il est possible de disposer du grand pouvoir d'expression des méthodes syntaxiques tout en ayant l'adaptabilité des méthodes statistiques. La méthode EWO permet d'inférer des règles afin de construire de manière progressive la description grammaticale complète des documents. L'inférence des règles concerne à la fois la structure logique et la structure physique des documents. La méthode EWO repose sur deux éléments majeurs : l'émergence automatique de structures grâce à un algorithme de clustering et une interaction avec l'utilisateur pour donner un sens aux structures détectées automatiquement. Notre méthode permet de plus l'inférence des règles sans vérité terrain annotée disponible sur les documents. Pour ce faire, la méthode EWO repose sur l'analyse de redondances dans de grand volume de documents non annotés. La détection des redondances est faite automatiquement grâce à un algorithme de clustering. Les éléments détectés automatiquement sont ensuite fiabilisés par l'utilisateur afin d'obtenir les données étiquetées d'apprentissage. La méthode EWO apporte une vision exhaustive et synthétique des données à analyser. Cela permet une meilleure exploitation du corpus que pour les méthodes syntaxiques décrites manuellement. Cela permet de plus une meilleure gestion des cas rares que ce qui est possible pour les méthodes statistiques. Nous avons validé l'efficacité cette approche sur des documents à structure variée (courriers manuscrits, registres d'archives, formulaires...). Pour chaque corpus de documents, des descriptions grammaticales ont été générées avec à la méthode EWO, obtenant des performances comparables ou meilleures que celles de systèmes pré-existants décrits manuellement. La méthode a également été appliquée avec succès sur un large corpus sans vérité terrain.
Fichier principal
Vignette du fichier
these_provisoire_ceres_carton.pdf (9.52 Mo) Télécharger le fichier

Dates and versions

tel-01492966 , version 1 (20-03-2017)

Identifiers

  • HAL Id : tel-01492966 , version 1

Cite

Cérès Carton. Inférence semi-automatique et interactive de règles avec ou sans vérité terrain pour la reconnaissance de structure de documents. Traitement du texte et du document. INSA de Rennes, 2016. Français. ⟨NNT : ⟩. ⟨tel-01492966⟩
280 View
143 Download

Share

Gmail Facebook Twitter LinkedIn More