Exploration et utilisation d'informations distantes dans les modèles de langage statistiques - Archive ouverte HAL Access content directly
Conference Papers Year : 2006

Exploration et utilisation d'informations distantes dans les modèles de langage statistiques

(1) , (1) , (1)
1

Abstract

Dans le cadre de la modélisation statistique du langage, nous montrons qu'il est possible d'utiliser un modèle n-grammes avec un historique qui n'est pas nécessairement celui avec lequel il a été appris. Par exemple, un adverbe présent dans l'historique peut ne pas avoir d'importance pour la prédiction, et devrait donc être ignoré en décalant l'historique utilisé pour la prédiction. Notre étude porte sur les modèles n-grammes classiques et les modèles n-grammes distants et est appliquée au cas des bigrammes. Nous présentons quatre cas d'utilisation pour deux modèles bigrammes~: distants et non distants. Nous montrons que la combinaison linéaire dépendante de l'historique de ces quatre cas permet d'améliorer de 14% la perplexité du modèle bigrammes classique. Par ailleurs, nous nous intéressons à quelques cas de combinaison qui permettent de mettre en valeur les historiques pour lesquels les modèles que nous proposons sont performants.
Not file

Dates and versions

inria-00103459 , version 1 (04-10-2006)

Identifiers

  • HAL Id : inria-00103459 , version 1

Cite

Armelle Brun, David Langlois, Kamel Smaïli. Exploration et utilisation d'informations distantes dans les modèles de langage statistiques. 13ème Conférence sur le Traitement Automatique des Langues Naturelles - TALN'2006, Apr 2006, Leuven, Belgique. pp.425-434. ⟨inria-00103459⟩
81 View
0 Download

Share

Gmail Facebook Twitter LinkedIn More