Arabic statistical language modeling

Karima Meftouh 1 Kamel Smaïli 2 Mohamed-Tayeb Laskri 1
2 PAROLE - Analysis, perception and recognition of speech
INRIA Lorraine, LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications
Abstract : In this study we propose to investigate statistical language models for Arabic. Several experiments using different smoothing techniques have been carried out on a small corpus extracted from a daily newspaper. The sparseness of the data leads us to investigate other solutions without increasing the size of the corpus. A word segmentation technique has been employed in order to increase the statistical viability of the corpus. This leads to a better performance in terms of normalized perplexity.
Type de document :
Communication dans un congrès
9es Journées internationales d'Analyse statistique des Données Textuelles - JADT 2008, Mar 2008, Lyon, France. pp.837-844, 2008
Liste complète des métadonnées

Littérature citée [14 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/inria-00402315
Contributeur : Kamel Smaïli <>
Soumis le : lundi 20 novembre 2017 - 10:15:03
Dernière modification le : dimanche 8 avril 2018 - 11:48:13
Document(s) archivé(s) le : mercredi 21 février 2018 - 12:18:49

Fichier

JADT2008meftouh-smaili-laskri....
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : inria-00402315, version 1

Collections

Citation

Karima Meftouh, Kamel Smaïli, Mohamed-Tayeb Laskri. Arabic statistical language modeling. 9es Journées internationales d'Analyse statistique des Données Textuelles - JADT 2008, Mar 2008, Lyon, France. pp.837-844, 2008. 〈inria-00402315〉

Partager

Métriques

Consultations de la notice

226

Téléchargements de fichiers

77