Skip to Main content Skip to Navigation
Conference papers

Méthode d'apprentissage pour la conversion automatique de documents structurés

Résumé : De plus en plus de sociétés désirent moderniser leur système de gestion de fond documentaire. Le problème qui se pose à ces entreprises concerne la migration de leurs documents vers un format plus ouvert et offrant plus de possibilités. La tâche de conversion est rendue difficile d'une part à cause de la grande hétérogénéité des documents et d'autre part à cause du très grand volume de données à traiter. Dans ce papier nous présentons une approche permettant de réaliser des conversions de documents orientés présentation vers des documents sémantiques. L'intérêt de la méthode consiste à automatiser le processus de conversion en utilisant des techniques d'apprentissage supervisé pour découvrir des règles de transformations applicables pour une collection de documents. Nous décomposons la conversion en deux étapes pour simplifier le problème, une première étape d'annotation sémantique des éléments textuels du document d'origine et une seconde étape qui consiste à faire émerger la structure sémantique du document en respectant une grammaire cible qui décrit le langage à utiliser pour les documents finaux. L'approche est probabiliste pour permettre une plus grande robustesse.
Document type :
Conference papers
Complete list of metadata

Cited literature [1 references]  Display  Hide  Download

https://hal.inria.fr/inria-00000676
Contributor : Anne Jaigu <>
Submitted on : Monday, November 14, 2005 - 3:08:17 PM
Last modification on : Friday, November 6, 2020 - 3:29:26 AM
Long-term archiving on: : Friday, April 2, 2010 - 7:08:41 PM

File

Identifiers

  • HAL Id : inria-00000676, version 1

Collections

Citation

Jérôme Fuselier, Boris Chidlovskii, Jean-Charles Marty. Méthode d'apprentissage pour la conversion automatique de documents structurés. MajecSTIC 2005 : Manifestation des Jeunes Chercheurs francophones dans les domaines des STIC, IRISA – IETR – LTSI, Nov 2005, Rennes, pp.135-142. ⟨inria-00000676⟩

Share

Metrics

Record views

268

Files downloads

357