Catégorisation de contenus d'images de documents anciens par analyse multi-résolution et approche texture

Abstract : Les récents progrès dans la numérisation des collections de documents anciens a ravivé de nouveaux défis dans la recherche d'information dans les bibliothèques numériques et l'analyse du contenu des documents numérisés. Par conséquent, afin de contrôler la qualité de la numérisation de documents et pour répondre à la nécessité d'une caractérisation de leur contenu à l'aide des métadonnées de niveau intermédiaire (entre l'image et la structure du document), nous proposons une catégorisation rapide et automatique du contenu d'images de documents anciens.Cette catégorisation s’appuie tout d’abord sur le calcul des indices de texture calculés à partir de la fonction d’auto-corrélation. Les descripteurs d’auto-corrélation sont obtenus par une analyse multi-résolution et servent par la suite à extraire les zones homogènes de l’image du document numérisé à l’aide d’une méthodologie non supervisé de clustering. La méthode proposée se veut complètement non paramétrable et indépendante de la structure du document. L’originalité de ce travail vient aussi de l’absence de connaissances a priori, que ce soit sur le modèle de document (structure physique), ou les paramètres typographiques (structure logique). Pour évaluer notre approche et montrer sa pertinence en termes de bonne segmentation et caractérisation de contenu d’un corpus hétérogène, nous l’appliquons sur 316 images de documents anciens de la bibliothèque numérique Gallica. Ce corpus comprend six siècles (1200-1900)de l'histoire française. Par ailleurs, nous définissons une nouvelle métrique supervisée d’évaluation de clustering, nommée la mesure d'homogénéité. Nous obtenons une moyenne de 85% d'homogénéité. Ces résultats permettront de représenter le contenu d’un document par structure hiérarchique et de définir une ou plusieurs signatures pour chaque page, sur la base d'une représentation hiérarchique des blocs homogènes et leur topologie.
Type de document :
Communication dans un congrès
Journée thématique "Traitements bas niveau pour l’extraction de caractéristiques statistiques ou structurelles" du Groupe de Recherche en Communication Écrite (GRCE’12) , Nov 2012, Paris, France. 2012
Liste complète des métadonnées

https://hal.inria.fr/hal-01245064
Contributeur : Maroua Mehri <>
Soumis le : mercredi 16 décembre 2015 - 16:03:56
Dernière modification le : mardi 5 juin 2018 - 10:14:25

Identifiants

  • HAL Id : hal-01245064, version 1

Citation

Mehri Maroua, Rémy Mullot, Pierre Héroux, Petra Gomez-Krämer, Alain Boucher. Catégorisation de contenus d'images de documents anciens par analyse multi-résolution et approche texture. Journée thématique "Traitements bas niveau pour l’extraction de caractéristiques statistiques ou structurelles" du Groupe de Recherche en Communication Écrite (GRCE’12) , Nov 2012, Paris, France. 2012. 〈hal-01245064〉

Partager

Métriques

Consultations de la notice

108

Téléchargements de fichiers

63