Skip to Main content Skip to Navigation
Habilitation à diriger des recherches

Combinaison de données hétérogènes pour la reconnaissance d'images de documents

Abstract : Ce manuscrit est une synthèse de mes travaux de recherche depuis 2008, au sein de l’équipe Intuidoc de l’Irisa. Ces travaux portent sur l’analyse automatique d’images de documents numérisés, et plus particulièrement la reconnaissance de la structure de documents. S’il existe des OCR du commerce de bonne qualité, la reconnaissance d’images de documents reste un problème ouvert pour les documents anciens, abîmés, à structure complexe, ou avec une forte interaction entre écriture manuscrite et texte imprimé Mes travaux se sont focalisés autour de la méthode DMOS. Il s’agit d’une méthode à base de règles grammaticales, permettant une description physique, syntaxique et sémantique des documents à reconnaître. En particulier, nous avons mis au point le mécanisme de calque perceptif, qui permet une combinaison de données hétérogènes, guidée par une description grammaticale des contenus. Les données hétérogènes peuvent être des primitives basiques extraites de l’image (segments, composantes connexes), des objets construits (lignes de texte, alignements), des résultats de classifieurs, des données issues d’interactions avec l’utilisateur, des résultats de systèmes de reconnaissance d’écriture, et plus récemment des résultats produits par des systèmes à base d’apprentissage profond. Grâce à l’utilisation des calques perceptifs, ces données sont combinées simplement en suivant des règles symboliques décrivant l’organisation physique et logique des documents. Dans ce manuscrit, nous présentons l’intérêt de la combinaison de données hétérogènes sur de nombreuses problématiques concrètes. Nous abordons les tâches de segmentation physique des pages : la localisation de lignes de texte et la segmentation en paragraphes. Nous étudions l’analyse de documents à structure complexe comme la presse ancienne, le corpus hétérogène Maurdor, des diagrammes de type flowchart, ou des documents tabulaires d’histoire de la finance. Nous présentons également des résultats sur des formulaires pré-imprimés. Enfin, nous abordons des perspectives de recherches autour de l’apprentissage avec peu de données, l’utilisation de réseaux de neurones profonds, ainsi que des interactions avec le domaine du traitement automatique de la langue.
Document type :
Habilitation à diriger des recherches
Complete list of metadatas

Cited literature [62 references]  Display  Hide  Download

https://hal.inria.fr/tel-03001548
Contributor : Aurélie Lemaitre <>
Submitted on : Thursday, November 12, 2020 - 1:58:41 PM
Last modification on : Saturday, November 14, 2020 - 3:31:06 AM

File

HDR_final_lemaitre.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : tel-03001548, version 1

Citation

Aurélie Lemaitre Legargeant. Combinaison de données hétérogènes pour la reconnaissance d'images de documents. Traitement du texte et du document. Université de Rennes 1, 2020. ⟨tel-03001548⟩

Share

Metrics

Record views

61

Files downloads

147