Arabic statistical language modeling - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Communication Dans Un Congrès Année : 2008

Arabic statistical language modeling

Résumé

In this study we propose to investigate statistical language models for Arabic. Several experiments using different smoothing techniques have been carried out on a small corpus extracted from a daily newspaper. The sparseness of the data leads us to investigate other solutions without increasing the size of the corpus. A word segmentation technique has been employed in order to increase the statistical viability of the corpus. This leads to a better performance in terms of normalized perplexity.
Fichier principal
Vignette du fichier
JADT2008meftouh-smaili-laskri.pdf (330.54 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

inria-00402315 , version 1 (20-11-2017)

Identifiants

  • HAL Id : inria-00402315 , version 1

Citer

Karima Meftouh, Kamel Smaïli, Mohamed-Tayeb Laskri. Arabic statistical language modeling. 9es Journées internationales d'Analyse statistique des Données Textuelles - JADT 2008, Mar 2008, Lyon, France. pp.837-844. ⟨inria-00402315⟩
191 Consultations
442 Téléchargements

Partager

Gmail Facebook X LinkedIn More