Combinaison de données hétérogènes pour la reconnaissance d'images de documents - Archive ouverte HAL Access content directly
Habilitation À Diriger Des Recherches Year : 2020

Combinaison de données hétérogènes pour la reconnaissance d'images de documents

(1, 2)
1
2

Abstract

Ce manuscrit est une synthèse de mes travaux de recherche depuis 2008, au sein de l’équipe Intuidoc de l’Irisa. Ces travaux portent sur l’analyse automatique d’images de documents numérisés, et plus particulièrement la reconnaissance de la structure de documents. S’il existe des OCR du commerce de bonne qualité, la reconnaissance d’images de documents reste un problème ouvert pour les documents anciens, abîmés, à structure complexe, ou avec une forte interaction entre écriture manuscrite et texte imprimé Mes travaux se sont focalisés autour de la méthode DMOS. Il s’agit d’une méthode à base de règles grammaticales, permettant une description physique, syntaxique et sémantique des documents à reconnaître. En particulier, nous avons mis au point le mécanisme de calque perceptif, qui permet une combinaison de données hétérogènes, guidée par une description grammaticale des contenus. Les données hétérogènes peuvent être des primitives basiques extraites de l’image (segments, composantes connexes), des objets construits (lignes de texte, alignements), des résultats de classifieurs, des données issues d’interactions avec l’utilisateur, des résultats de systèmes de reconnaissance d’écriture, et plus récemment des résultats produits par des systèmes à base d’apprentissage profond. Grâce à l’utilisation des calques perceptifs, ces données sont combinées simplement en suivant des règles symboliques décrivant l’organisation physique et logique des documents. Dans ce manuscrit, nous présentons l’intérêt de la combinaison de données hétérogènes sur de nombreuses problématiques concrètes. Nous abordons les tâches de segmentation physique des pages : la localisation de lignes de texte et la segmentation en paragraphes. Nous étudions l’analyse de documents à structure complexe comme la presse ancienne, le corpus hétérogène Maurdor, des diagrammes de type flowchart, ou des documents tabulaires d’histoire de la finance. Nous présentons également des résultats sur des formulaires pré-imprimés. Enfin, nous abordons des perspectives de recherches autour de l’apprentissage avec peu de données, l’utilisation de réseaux de neurones profonds, ainsi que des interactions avec le domaine du traitement automatique de la langue.
Fichier principal
Vignette du fichier
HDR_final_lemaitre.pdf (28.24 Mo) Télécharger le fichier
Origin : Files produced by the author(s)
Loading...

Dates and versions

tel-03001548 , version 1 (12-11-2020)

Identifiers

  • HAL Id : tel-03001548 , version 1

Cite

Aurélie Lemaitre Legargeant. Combinaison de données hétérogènes pour la reconnaissance d'images de documents. Traitement du texte et du document. Université de Rennes 1, 2020. ⟨tel-03001548⟩
163 View
42 Download

Share

Gmail Facebook Twitter LinkedIn More