Segmentation de séquences de pages d'ouvrages anciens basée sur une signature structurelle des images - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Communication Dans Un Congrès Année : 2015

Segmentation de séquences de pages d'ouvrages anciens basée sur une signature structurelle des images

Résumé

Dans le cadre de nos travaux de recherche, nous proposons une approche permettant la caractérisation et la catégorisation automatiques des pages d'un ouvrage ancien. L'approche proposée se veut indépendante de la structure et du contenu de l'ouvrage analysé. Le principal avantage de ce travail réside dans le fait que l'approche s'affranchit des connaissances préalables, que ce soit concernant le contenu du document ou sa structure. Elle est basée sur une analyse des descripteurs de texture et une représentation structurelle en graphe afin de fournir une description riche permettant une catégorisation à partir du contenu graphique (capturé par la texture) et des mises en page (représentées par des graphes). En effet, cette catégorisation s'appuie sur la caractérisation du contenu de la page numérisée à l'aide d'une analyse des descripteurs de texture, de forme, géométriques et topologiques. Cette caractérisation est définie à l'aide d'une représentation structurelle. Dans le détail, l'approche de catégorisation se décompose en deux étapes principales successives. La première consiste à extraire des régions homogènes. La seconde vise à proposer une signature structurelle à base de texture, sous la forme d'un graphe, construite à partir des régions homogènes extraites et reflétant la structure de la page analysée. Cette signature assure la mise en œuvre de nombreuses applications pour gérer efficacement un corpus ou des collections de livres anciens (par exemple, la recherche d'information dans les bibliothèques numériques en fonction de plusieurs critères, ou la catégorisation des pages d'un même ouvrage). En comparant les différentes signatures structurelles par le biais de la distance d'édition entre graphes, les similitudes entre les pages d'un même ouvrage en termes de leurs mises en page et/ou contenus peuvent être déduites. Ainsi de suite, les pages ayant des mises en page et/ou contenus similaires peuvent être catégorisées, et un résumé/une table des matières de l'ouvrage analysé peut être alors généré automatiquement. Pour illustrer l'efficacité de la signature proposée, une étude expérimentale a été menée pour évaluer une application possible de cette signature, et qui consiste à segmenter le flux de pages d'un même ouvrage ancien.
MarouaMEHRI_Norm@STIC_AxeDAC2015_Presentation.pdf (900.6 Ko) Télécharger le fichier
MarouaMEHRI_Norm@STIC_AxeDAC2015_Resume.pdf (8.92 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-01245054 , version 1 (16-12-2015)

Identifiants

  • HAL Id : hal-01245054 , version 1

Citer

Mehri Maroua, Pierre Héroux, Petra Gomez-Krämer, Rémy Mullot. Segmentation de séquences de pages d'ouvrages anciens basée sur une signature structurelle des images. Journée de l'axe "Axe Données, Apprentissage, Connaissances" (DAC) de la fédération Norm@STIC, Oct 2015, Rouen, France. ⟨hal-01245054⟩
125 Consultations
6 Téléchargements

Partager

Gmail Facebook X LinkedIn More