Événements impossibles en modélisation stochastique du langage

David Langlois 1 Armelle Brun 1 Kamel Smaïli 1 Jean-Paul Haton 1
1 PAROLE - Analysis, perception and recognition of speech
INRIA Lorraine, LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications
Résumé : Dans cet article, nous nous proposons d'introduire la notion d'événement impossible dans les modèles de langage statistiques. En effet, dans la langue écrite, seules les constructions respectant des règles grammaticales appropriées, sont acceptées. Pour toutes les autres, on considérera qu'elles sont erronées et non pas peu probables comme on le fait dans les modèles de langage statistiques classiques. Pour déterminer si un événement est possible ou non, nous utilisons comme sources d'informations des corpus étiquetés avec diverses classifications construites sur des critères linguistiques ou à l'aide de méthodes automatiques. Nous leur appliquons plusieurs heuristiques fondées sur la théorie de l'information. Nous appliquons ces règles pour la détection de bigrammes impossibles dans la langue française et en recensons ainsi 60 millions pour un vocabulaire de 20000 mots. Le taux d'erreur de la décision d'impossibilité est estimé à moins de 1%. Un nouveau modèle de langage statistique est développé prenant en compte les événements impossibles. L'amélioration de la perplexité varie de 25% à 48% selon les conditions de test. || In this paper, we propose to introduce the notion of impossible events for statistical language modelling. In language, only sentences respecting grammatical constraints are correct. The others will be considered as wrong contrary to classical statistical
Type de document :
Article dans une revue
Traitement Automatique des Langues, ATALA, 2003, 44 (1), pp.33-61
Liste complète des métadonnées

https://hal.inria.fr/inria-00099594
Contributeur : Publications Loria <>
Soumis le : mardi 26 septembre 2006 - 09:39:07
Dernière modification le : jeudi 11 janvier 2018 - 06:19:57

Identifiants

  • HAL Id : inria-00099594, version 1

Collections

Citation

David Langlois, Armelle Brun, Kamel Smaïli, Jean-Paul Haton. Événements impossibles en modélisation stochastique du langage. Traitement Automatique des Langues, ATALA, 2003, 44 (1), pp.33-61. 〈inria-00099594〉

Partager

Métriques

Consultations de la notice

158