Inférence semi-automatique et interactive de règles avec ou sans vérité terrain pour la reconnaissance de structure de documents

Résumé : Les documents à traiter dans le domaine de l'analyse de la structure de documents sont de plus en plus complexes et les corpus de plus en plus hétérogènes. Nous proposons une nouvelle méthode, la méthode Eyes Wide Open (EWO) pour introduire une phase d'apprentissage semi-automatique et interactive dans la construction de descriptions grammaticales. Grâce à la méthode EWO, il est possible de disposer du grand pouvoir d'expression des méthodes syntaxiques tout en ayant l'adaptabilité des méthodes statistiques. La méthode EWO permet d'inférer des règles afin de construire de manière progressive la description grammaticale complète des documents. L'inférence des règles concerne à la fois la structure logique et la structure physique des documents. La méthode EWO repose sur deux éléments majeurs : l'émergence automatique de structures grâce à un algorithme de clustering et une interaction avec l'utilisateur pour donner un sens aux structures détectées automatiquement. Notre méthode permet de plus l'inférence des règles sans vérité terrain annotée disponible sur les documents. Pour ce faire, la méthode EWO repose sur l'analyse de redondances dans de grand volume de documents non annotés. La détection des redondances est faite automatiquement grâce à un algorithme de clustering. Les éléments détectés automatiquement sont ensuite fiabilisés par l'utilisateur afin d'obtenir les données étiquetées d'apprentissage. La méthode EWO apporte une vision exhaustive et synthétique des données à analyser. Cela permet une meilleure exploitation du corpus que pour les méthodes syntaxiques décrites manuellement. Cela permet de plus une meilleure gestion des cas rares que ce qui est possible pour les méthodes statistiques. Nous avons validé l'efficacité cette approche sur des documents à structure variée (courriers manuscrits, registres d'archives, formulaires...). Pour chaque corpus de documents, des descriptions grammaticales ont été générées avec à la méthode EWO, obtenant des performances comparables ou meilleures que celles de systèmes pré-existants décrits manuellement. La méthode a également été appliquée avec succès sur un large corpus sans vérité terrain.
Type de document :
Thèse
Traitement du texte et du document. INSA de Rennes, 2016. Français
Liste complète des métadonnées

https://hal.inria.fr/tel-01492966
Contributeur : Aurélie Lemaitre <>
Soumis le : lundi 20 mars 2017 - 16:54:40
Dernière modification le : mercredi 16 mai 2018 - 11:23:35

Identifiants

  • HAL Id : tel-01492966, version 1

Citation

Cérès Carton. Inférence semi-automatique et interactive de règles avec ou sans vérité terrain pour la reconnaissance de structure de documents. Traitement du texte et du document. INSA de Rennes, 2016. Français. 〈tel-01492966〉

Partager

Métriques

Consultations de la notice

313

Téléchargements de fichiers

184