Inférence semi-automatique et interactive de règles sans vérité terrain

Cérès Carton; Aurélie Lemaitre; Bertrand B. Coüasnon

Communication Dans Un Congrès Année : 2016

Inférence semi-automatique et interactive de règles sans vérité terrain

(1, 2) , (1, 3) , (1, 2)

1
2
3

Cérès Carton

Fonction : Auteur

intuitive user interaction for document

Institut National des Sciences Appliquées - Rennes

Aurélie Lemaitre

Fonction : Auteur
PersonId : 1296
IdHAL : aurelie-lemaitre
ORCID : 0000-0003-1644-7176

intuitive user interaction for document

Université de Rennes 2

Bertrand B. Coüasnon

Fonction : Auteur
PersonId : 5048
IdHAL : bertrand-couasnon
ORCID : 0000-0002-7077-0751
IdRef : 077114094

intuitive user interaction for document

Institut National des Sciences Appliquées - Rennes

Résumé

Dealing with non annotated documents for the design of a document recognition system is not an easy task. In general, statistical methods cannot learn without an annotated ground truth, unlike syntactical methods. However their ability to deal with non annotated data comes from the fact that the description is manually made by a user. The adaptation to a new kind of document is then tedious as the whole manual process of extraction of knowledge has to be redone. In this paper, we propose a method to extract knowledge and generate rules without any ground truth. Using large volume of non annotated documents, it is possible to study redundancies of some extracted elements in the document images. The redundancy is exploited through an automatic clustering algorithm. An interaction with the user brings semantic to the detected clusters. In this work, the extracted elements are some keywords extracted with word spotting. This approach has been applied to old marriage record field detection on the Family-Search HIP2013 competition database. The results demonstrate that we successfully automatically infer rules from non annotated documents using the redundancy of extracted elements of the documents.

La conception de systèmes de reconnaissance de documents à partir de documents non annotés est particulièrement difficile. En général, les méthodes statistiques ne peuvent ap-prendre sans une vérité terrain annotée, contrairement aux méthodes syntaxiques. Cependant, pour ces dernières, leur capacité à ne pas nécessiter de données annotées est due du fait que la description du document est réalisée manuellement par le concepteur. L'adaptation à un nou-veau type de documents est alors fastidieuse car l'ensemble du processus manuel d'extraction de connaissance doit être refait. Dans cet article, nous proposons une méthode pour extraire de la connaissance et générer des règles sans aucune vérité terrain. En utilisant de grands volumes de documents non annotés, il est possible d'étudier les redondances existantes sur des éléments extraits des images de documents. La redondance est exploitée grâce à un clustering automatique. Une interaction utilisateur permet d'apporter des informations sémantiques aux clusters ainsi détectés. Dans les travaux présentés, les éléments extraits sont des mots clés dé-tectés à l'aide de word spotting. Cette approche a été appliquée à la localisation de champs dans des registres de mariages anciens, issus de la base de documents de la compétition Fami-lySearch HIP2013. Les résultats obtenus montrent que nous avons pu automatiquement inférer des règles à partir de documents non annotés, en exploitant la redondance d'éléments extraits de ces documents.

Mots clés

Document structure recognition Rule inference Knowledge extraction Clustering Non annotated data.

Reconnaissance de documents structurés Inférence de règles Extraction de connaissances Partitionnement de données Données non annotées.

Domaines

Traitement du texte et du document

Fichier principal

CIFED_2016_paper_15.pdf (11.45 Mo)

Origine : Fichiers produits par l'(les) auteur(s)

Aurélie Lemaitre : Connectez-vous pour contacter le contributeur

https://inria.hal.science/hal-01492921

Soumis le : mardi 21 mars 2017-08:45:04

Dernière modification le : vendredi 24 mars 2023-14:53:04

Archivage à long terme le : jeudi 22 juin 2017-12:14:50

Dates et versions

hal-01492921 , version 1 (21-03-2017)

Identifiants

HAL Id : hal-01492921 , version 1

Citer

Cérès Carton, Aurélie Lemaitre, Bertrand B. Coüasnon. Inférence semi-automatique et interactive de règles sans vérité terrain. Conférence Internationale Francophone sur l'Ecrit et le Document (CIFED'2016), Mar 2016, Toulouse, France. ⟨hal-01492921⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

INSTITUT-TELECOM UNIV-RENNES1 UR2-HB CNRS INRIA INSA-RENNES IRISA IRISA-INSA-R IRISA-D6 UR1-MATH-STIC UR1-UFR-ISTIC UNIV-RENNES2 UNIV-RENNES INSA-GROUPE UR1-MATH-NUM

339 Consultations

110 Téléchargements

Inférence semi-automatique et interactive de règles sans vérité terrain

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager