Combinaison de données hétérogènes pour la reconnaissance d'images de documents

Aurélie Lemaitre Legargeant

Hdr Année : 2020

Combinaison de données hétérogènes pour la reconnaissance d'images de documents

(1, 2)

1
2

Aurélie Lemaitre Legargeant

Fonction : Auteur
PersonId : 1296
IdHAL : aurelie-lemaitre
ORCID : 0000-0003-1644-7176

intuitive user interaction for document

Université de Rennes 2

Résumé

Ce manuscrit est une synthèse de mes travaux de recherche depuis 2008, au sein de l’équipe Intuidoc de l’Irisa. Ces travaux portent sur l’analyse automatique d’images de documents numérisés, et plus particulièrement la reconnaissance de la structure de documents. S’il existe des OCR du commerce de bonne qualité, la reconnaissance d’images de documents reste un problème ouvert pour les documents anciens, abîmés, à structure complexe, ou avec une forte interaction entre écriture manuscrite et texte imprimé Mes travaux se sont focalisés autour de la méthode DMOS. Il s’agit d’une méthode à base de règles grammaticales, permettant une description physique, syntaxique et sémantique des documents à reconnaître. En particulier, nous avons mis au point le mécanisme de calque perceptif, qui permet une combinaison de données hétérogènes, guidée par une description grammaticale des contenus. Les données hétérogènes peuvent être des primitives basiques extraites de l’image (segments, composantes connexes), des objets construits (lignes de texte, alignements), des résultats de classifieurs, des données issues d’interactions avec l’utilisateur, des résultats de systèmes de reconnaissance d’écriture, et plus récemment des résultats produits par des systèmes à base d’apprentissage profond. Grâce à l’utilisation des calques perceptifs, ces données sont combinées simplement en suivant des règles symboliques décrivant l’organisation physique et logique des documents. Dans ce manuscrit, nous présentons l’intérêt de la combinaison de données hétérogènes sur de nombreuses problématiques concrètes. Nous abordons les tâches de segmentation physique des pages : la localisation de lignes de texte et la segmentation en paragraphes. Nous étudions l’analyse de documents à structure complexe comme la presse ancienne, le corpus hétérogène Maurdor, des diagrammes de type flowchart, ou des documents tabulaires d’histoire de la finance. Nous présentons également des résultats sur des formulaires pré-imprimés. Enfin, nous abordons des perspectives de recherches autour de l’apprentissage avec peu de données, l’utilisation de réseaux de neurones profonds, ainsi que des interactions avec le domaine du traitement automatique de la langue.

Mots clés

Document image analysis Rule based system Data fusion

Analyse d'images de documents Combinaison de données

Domaines

Traitement du texte et du document

Fichier principal

HDR_final_lemaitre.pdf (28.24 Mo)

Origine : Fichiers produits par l'(les) auteur(s)

Aurélie Lemaitre : Connectez-vous pour contacter le contributeur

https://inria.hal.science/tel-03001548

Soumis le : jeudi 12 novembre 2020-13:58:41

Dernière modification le : vendredi 24 mars 2023-14:53:19

Archivage à long terme le : samedi 13 février 2021-19:33:26

Dates et versions

tel-03001548 , version 1 (12-11-2020)

Identifiants

HAL Id : tel-03001548 , version 1

Citer

Aurélie Lemaitre Legargeant. Combinaison de données hétérogènes pour la reconnaissance d'images de documents. Traitement du texte et du document. Université de Rennes 1, 2020. ⟨tel-03001548⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

INSTITUT-TELECOM UNIV-RENNES1 UR2-HB CNRS INRIA UR2-HB-T INSA-RENNES IRISA CENTRALESUPELEC IRISA-D6 UR1-MATH-STIC UR1-UFR-ISTIC UNIV-RENNES2 UNIV-RENNES UR1-MATH-NUM

222 Consultations

71 Téléchargements

Combinaison de données hétérogènes pour la reconnaissance d'images de documents

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager