Inférence semi-automatique et interactive de règles sans vérité terrain

Résumé : La conception de systèmes de reconnaissance de documents à partir de documents non annotés est particulièrement difficile. En général, les méthodes statistiques ne peuvent ap-prendre sans une vérité terrain annotée, contrairement aux méthodes syntaxiques. Cependant, pour ces dernières, leur capacité à ne pas nécessiter de données annotées est due du fait que la description du document est réalisée manuellement par le concepteur. L'adaptation à un nou-veau type de documents est alors fastidieuse car l'ensemble du processus manuel d'extraction de connaissance doit être refait. Dans cet article, nous proposons une méthode pour extraire de la connaissance et générer des règles sans aucune vérité terrain. En utilisant de grands volumes de documents non annotés, il est possible d'étudier les redondances existantes sur des éléments extraits des images de documents. La redondance est exploitée grâce à un clustering automatique. Une interaction utilisateur permet d'apporter des informations sémantiques aux clusters ainsi détectés. Dans les travaux présentés, les éléments extraits sont des mots clés dé-tectés à l'aide de word spotting. Cette approche a été appliquée à la localisation de champs dans des registres de mariages anciens, issus de la base de documents de la compétition Fami-lySearch HIP2013. Les résultats obtenus montrent que nous avons pu automatiquement inférer des règles à partir de documents non annotés, en exploitant la redondance d'éléments extraits de ces documents.
Type de document :
Communication dans un congrès
Conférence Internationale Francophone sur l'Ecrit et le Document (CIFED'2016), Mar 2016, Toulouse, France. 2016 - Conf}rence en Recherche d'Informations et Applications- 13th French Information Retrieval Conference. 2016 Colloque International Francophone sur l'Ecrit et le Document
Liste complète des métadonnées

https://hal.inria.fr/hal-01492921
Contributeur : Aurélie Lemaitre <>
Soumis le : mardi 21 mars 2017 - 08:45:04
Dernière modification le : jeudi 5 avril 2018 - 12:30:15
Document(s) archivé(s) le : jeudi 22 juin 2017 - 12:14:50

Fichier

CIFED_2016_paper_15.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01492921, version 1

Citation

Cérès Carton, Aurélie Lemaitre, Bertrand Coüasnon. Inférence semi-automatique et interactive de règles sans vérité terrain. Conférence Internationale Francophone sur l'Ecrit et le Document (CIFED'2016), Mar 2016, Toulouse, France. 2016 - Conf}rence en Recherche d'Informations et Applications- 13th French Information Retrieval Conference. 2016 Colloque International Francophone sur l'Ecrit et le Document. 〈hal-01492921〉

Partager

Métriques

Consultations de la notice

338

Téléchargements de fichiers

36