Un modèle neuro markovien profond pour l’extraction de séquences dans des documents manuscrits

Résumé : Dans cet article, nous proposons un système d'extraction de mots clefs dans des documents manuscrits. Notre approche est basée sur la reconnaissance des lignes de texte à l'aide d'un modèle HMM capable de rejeter les mots n'appartenant pas à un lexique prédéfini. Afin d'être plus discriminant, nous avons remplacé les mélanges de gaussiennes des HMM par un réseau de neurones profond pour calculer les probabilités a posteriori des observations. Nous montrons sur la base de documents des compétitions ICDAR 2009 l'intérêt de notre approche d'extraction d'information par rapport à une stratégie basée sur la reconnaissance intégrale du document. Les résultats montrent également l'apport de l'architecture profonde par rapport aux mélanges de gaussiennes.
Type de document :
Article dans une revue
Revue des Sciences et Technologies de l'Information - Série Document Numérique, Lavoisier, 2013, 16 (2), pp.20. 〈10.3166/dn.16.2.49-68〉
Liste complète des métadonnées

Littérature citée [27 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/hal-01105363
Contributeur : Clément Chatelain <>
Soumis le : mardi 20 janvier 2015 - 11:10:17
Dernière modification le : mardi 5 juin 2018 - 10:14:25
Document(s) archivé(s) le : mardi 21 avril 2015 - 10:36:46

Fichier

docnum-thomas2013.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

Citation

Simon Thomas, Clément Chatelain, Thierry Paquet, Laurent Heutte. Un modèle neuro markovien profond pour l’extraction de séquences dans des documents manuscrits. Revue des Sciences et Technologies de l'Information - Série Document Numérique, Lavoisier, 2013, 16 (2), pp.20. 〈10.3166/dn.16.2.49-68〉. 〈hal-01105363〉

Partager

Métriques

Consultations de la notice

107

Téléchargements de fichiers

369