Exploration et utilisation d'informations distantes dans les modèles de langage statistiques

Armelle Brun 1 David Langlois 1 Kamel Smaïli 1
1 PAROLE - Analysis, perception and recognition of speech
INRIA Lorraine, LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications
Résumé : Dans le cadre de la modélisation statistique du langage, nous montrons qu'il est possible d'utiliser un modèle n-grammes avec un historique qui n'est pas nécessairement celui avec lequel il a été appris. Par exemple, un adverbe présent dans l'historique peut ne pas avoir d'importance pour la prédiction, et devrait donc être ignoré en décalant l'historique utilisé pour la prédiction. Notre étude porte sur les modèles n-grammes classiques et les modèles n-grammes distants et est appliquée au cas des bigrammes. Nous présentons quatre cas d'utilisation pour deux modèles bigrammes~: distants et non distants. Nous montrons que la combinaison linéaire dépendante de l'historique de ces quatre cas permet d'améliorer de 14% la perplexité du modèle bigrammes classique. Par ailleurs, nous nous intéressons à quelques cas de combinaison qui permettent de mettre en valeur les historiques pour lesquels les modèles que nous proposons sont performants.
Type de document :
Communication dans un congrès
13ème Conférence sur le Traitement Automatique des Langues Naturelles - TALN'2006, Apr 2006, Leuven, Belgique. pp.425-434, 2006
Liste complète des métadonnées

https://hal.inria.fr/inria-00103459
Contributeur : Armelle Brun <>
Soumis le : mercredi 4 octobre 2006 - 14:48:23
Dernière modification le : jeudi 11 janvier 2018 - 06:19:55

Identifiants

  • HAL Id : inria-00103459, version 1

Collections

Citation

Armelle Brun, David Langlois, Kamel Smaïli. Exploration et utilisation d'informations distantes dans les modèles de langage statistiques. 13ème Conférence sur le Traitement Automatique des Langues Naturelles - TALN'2006, Apr 2006, Leuven, Belgique. pp.425-434, 2006. 〈inria-00103459〉

Partager

Métriques

Consultations de la notice

175