Champs Conditionnels Aléatoires pour l'Annotation d'Arbres

Résumé : Avec en vue la transformation de documents semi-structurés de type XML, nous nous intéressons au problème de l'annotation de tels documents par apprentissage statistique, à partir d'exemples de documents déjà annotés. Afin de modéliser la probabilité d'une annotation connaissant un document, nous nous plaçons dans le cadre des champs conditionnels aléatoires. Ce modèle a déjà fait ses preuves pour l'annotation de séquences : nous l'adaptons ici aux arbres ordonnés d'arité non bornée. Nous étudions l'expressivité du nouveau modèle ainsi introduit en le comparant aux automates d'arbres stochastiques (ou grammaires régulières probabilistes d'arbres). Nous présentons aussi en détail l'algorithme de recherche de l'annotation la plus probable et l'algorithme d'inférence pour ce modèle. Ces algorithmes sont implantés dans une librairie Tree CRF écrite en JAVA. Ces travaux sont des préliminaires qui nous permettront par la suite d'étudier les applications du modèle pour la transformation de documents.
Document type :
Conference papers
Complete list of metadatas

Cited literature [13 references]  Display  Hide  Download

https://hal.inria.fr/inria-00117014
Contributor : Marc Tommasi <>
Submitted on : Wednesday, November 29, 2006 - 6:24:49 PM
Last modification on : Thursday, February 21, 2019 - 10:52:49 AM
Long-term archiving on : Tuesday, April 6, 2010 - 7:12:39 PM

File

jousse.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : inria-00117014, version 1

Collections

Citation

Florent Jousse, Rémi Gilleron, Isabelle Tellier, Marc Tommasi. Champs Conditionnels Aléatoires pour l'Annotation d'Arbres. CAp 2006, May 2006, Trégastel, France. ⟨inria-00117014⟩

Share

Metrics

Record views

331

Files downloads

249