Skip to Main content Skip to Navigation
Conference papers

Catégorisation de contenus d'images de documents anciens par analyse multi-résolution et approche texture

Abstract : Les récents progrès dans la numérisation des collections de documents anciens a ravivé de nouveaux défis dans la recherche d'information dans les bibliothèques numériques et l'analyse du contenu des documents numérisés. Par conséquent, afin de contrôler la qualité de la numérisation de documents et pour répondre à la nécessité d'une caractérisation de leur contenu à l'aide des métadonnées de niveau intermédiaire (entre l'image et la structure du document), nous proposons une catégorisation rapide et automatique du contenu d'images de documents anciens.Cette catégorisation s’appuie tout d’abord sur le calcul des indices de texture calculés à partir de la fonction d’auto-corrélation. Les descripteurs d’auto-corrélation sont obtenus par une analyse multi-résolution et servent par la suite à extraire les zones homogènes de l’image du document numérisé à l’aide d’une méthodologie non supervisé de clustering. La méthode proposée se veut complètement non paramétrable et indépendante de la structure du document. L’originalité de ce travail vient aussi de l’absence de connaissances a priori, que ce soit sur le modèle de document (structure physique), ou les paramètres typographiques (structure logique). Pour évaluer notre approche et montrer sa pertinence en termes de bonne segmentation et caractérisation de contenu d’un corpus hétérogène, nous l’appliquons sur 316 images de documents anciens de la bibliothèque numérique Gallica. Ce corpus comprend six siècles (1200-1900)de l'histoire française. Par ailleurs, nous définissons une nouvelle métrique supervisée d’évaluation de clustering, nommée la mesure d'homogénéité. Nous obtenons une moyenne de 85% d'homogénéité. Ces résultats permettront de représenter le contenu d’un document par structure hiérarchique et de définir une ou plusieurs signatures pour chaque page, sur la base d'une représentation hiérarchique des blocs homogènes et leur topologie.
Document type :
Conference papers
Complete list of metadata

https://hal.inria.fr/hal-01245064
Contributor : Maroua Mehri <>
Submitted on : Wednesday, December 16, 2015 - 4:03:56 PM
Last modification on : Tuesday, December 8, 2020 - 10:05:43 AM

Identifiers

  • HAL Id : hal-01245064, version 1

Citation

Mehri Maroua, Rémy Mullot, Pierre Héroux, Petra Gomez-Krämer, Alain Boucher. Catégorisation de contenus d'images de documents anciens par analyse multi-résolution et approche texture. Journée thématique "Traitements bas niveau pour l’extraction de caractéristiques statistiques ou structurelles" du Groupe de Recherche en Communication Écrite (GRCE’12) , Nov 2012, Paris, France. ⟨hal-01245064⟩

Share

Metrics

Record views

178

Files downloads

83