Catégorisation de contenus d'images de documents anciens par analyse multi-résolution et approche texture - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Communication Dans Un Congrès Année : 2012

Catégorisation de contenus d'images de documents anciens par analyse multi-résolution et approche texture

Résumé

Les récents progrès dans la numérisation des collections de documents anciens a ravivé de nouveaux défis dans la recherche d'information dans les bibliothèques numériques et l'analyse du contenu des documents numérisés. Par conséquent, afin de contrôler la qualité de la numérisation de documents et pour répondre à la nécessité d'une caractérisation de leur contenu à l'aide des métadonnées de niveau intermédiaire (entre l'image et la structure du document), nous proposons une catégorisation rapide et automatique du contenu d'images de documents anciens.Cette catégorisation s’appuie tout d’abord sur le calcul des indices de texture calculés à partir de la fonction d’auto-corrélation. Les descripteurs d’auto-corrélation sont obtenus par une analyse multi-résolution et servent par la suite à extraire les zones homogènes de l’image du document numérisé à l’aide d’une méthodologie non supervisé de clustering. La méthode proposée se veut complètement non paramétrable et indépendante de la structure du document. L’originalité de ce travail vient aussi de l’absence de connaissances a priori, que ce soit sur le modèle de document (structure physique), ou les paramètres typographiques (structure logique). Pour évaluer notre approche et montrer sa pertinence en termes de bonne segmentation et caractérisation de contenu d’un corpus hétérogène, nous l’appliquons sur 316 images de documents anciens de la bibliothèque numérique Gallica. Ce corpus comprend six siècles (1200-1900)de l'histoire française. Par ailleurs, nous définissons une nouvelle métrique supervisée d’évaluation de clustering, nommée la mesure d'homogénéité. Nous obtenons une moyenne de 85% d'homogénéité. Ces résultats permettront de représenter le contenu d’un document par structure hiérarchique et de définir une ou plusieurs signatures pour chaque page, sur la base d'une représentation hiérarchique des blocs homogènes et leur topologie.
MarouaMEHRI_GRCE2012_Presentation (1).pdf (2.39 Mo) Télécharger le fichier
MarouaMEHRI_GRCE2012_Resume (1).pdf (7.63 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-01245064 , version 1 (16-12-2015)

Identifiants

  • HAL Id : hal-01245064 , version 1

Citer

Mehri Maroua, Rémy Mullot, Pierre Héroux, Petra Gomez-Krämer, Alain Boucher. Catégorisation de contenus d'images de documents anciens par analyse multi-résolution et approche texture. Journée thématique "Traitements bas niveau pour l’extraction de caractéristiques statistiques ou structurelles" du Groupe de Recherche en Communication Écrite (GRCE’12) , Nov 2012, Paris, France. ⟨hal-01245064⟩
104 Consultations
35 Téléchargements

Partager

Gmail Facebook X LinkedIn More