Inférence semi-automatique et interactive de règles sans vérité terrain - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Communication Dans Un Congrès Année : 2016

Inférence semi-automatique et interactive de règles sans vérité terrain

Résumé

Dealing with non annotated documents for the design of a document recognition system is not an easy task. In general, statistical methods cannot learn without an annotated ground truth, unlike syntactical methods. However their ability to deal with non annotated data comes from the fact that the description is manually made by a user. The adaptation to a new kind of document is then tedious as the whole manual process of extraction of knowledge has to be redone. In this paper, we propose a method to extract knowledge and generate rules without any ground truth. Using large volume of non annotated documents, it is possible to study redundancies of some extracted elements in the document images. The redundancy is exploited through an automatic clustering algorithm. An interaction with the user brings semantic to the detected clusters. In this work, the extracted elements are some keywords extracted with word spotting. This approach has been applied to old marriage record field detection on the Family-Search HIP2013 competition database. The results demonstrate that we successfully automatically infer rules from non annotated documents using the redundancy of extracted elements of the documents.
La conception de systèmes de reconnaissance de documents à partir de documents non annotés est particulièrement difficile. En général, les méthodes statistiques ne peuvent ap-prendre sans une vérité terrain annotée, contrairement aux méthodes syntaxiques. Cependant, pour ces dernières, leur capacité à ne pas nécessiter de données annotées est due du fait que la description du document est réalisée manuellement par le concepteur. L'adaptation à un nou-veau type de documents est alors fastidieuse car l'ensemble du processus manuel d'extraction de connaissance doit être refait. Dans cet article, nous proposons une méthode pour extraire de la connaissance et générer des règles sans aucune vérité terrain. En utilisant de grands volumes de documents non annotés, il est possible d'étudier les redondances existantes sur des éléments extraits des images de documents. La redondance est exploitée grâce à un clustering automatique. Une interaction utilisateur permet d'apporter des informations sémantiques aux clusters ainsi détectés. Dans les travaux présentés, les éléments extraits sont des mots clés dé-tectés à l'aide de word spotting. Cette approche a été appliquée à la localisation de champs dans des registres de mariages anciens, issus de la base de documents de la compétition Fami-lySearch HIP2013. Les résultats obtenus montrent que nous avons pu automatiquement inférer des règles à partir de documents non annotés, en exploitant la redondance d'éléments extraits de ces documents.
Fichier principal
Vignette du fichier
CIFED_2016_paper_15.pdf (11.45 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-01492921 , version 1 (21-03-2017)

Identifiants

  • HAL Id : hal-01492921 , version 1

Citer

Cérès Carton, Aurélie Lemaitre, Bertrand B. Coüasnon. Inférence semi-automatique et interactive de règles sans vérité terrain. Conférence Internationale Francophone sur l'Ecrit et le Document (CIFED'2016), Mar 2016, Toulouse, France. ⟨hal-01492921⟩
339 Consultations
110 Téléchargements

Partager

Gmail Facebook X LinkedIn More