inria-00582493, version 1
Modeling Arabic Language using statistical methods
Arabian Journal for Science and Engineering 35, 2C (2010) 69-82
- a – Université Badji Mokhtar
- 1 :
-
Université Badji Mokhtar Algérie - 2 :
-
INRIA – CNRS : UMR7503 – Université Henri Poincaré - Nancy I – Université Nancy II – Institut National Polytechnique de Lorraine (INPL) France
Références bibliographiques
- Type de publication : Articles dans des revues avec comité de lecture
- Domaine : Informatique/Informatique et langage
- Titre : Modeling Arabic Language using statistical methods
- Résumé : In this paper we propose to investigate statistical language models for Arabic. First, several experiments using different smoothing techniques are carried out on a small corpus extracted from a daily newspaper. The sparseness of the data leads us to investigate other solutions without increasing the size of the corpus. A word segmentation technique has been employed in order to increase the statistical viability of the corpus. An n-morpheme model has been developed which leads to a better performance in terms of normalized perplexity. The second experiment concerns the study of the behaviour of statistical models based on different kinds of corpora. The introduction of distant n-gram improves the baseline model. Finally we propose a comparative study of statistical language models for Arabic and several foreign languages. The objective of this study is to understand how to better model each of this languages. For foreign languages, trigram models are most appropriate whatever the smoothing technique used. For Arabic, the n-gram models of higher order smoothed with Witten Bell method are more efficient.
- Résumé français : Dans ce papier, nous proposons d'étudier les modèles de langage statistiques pour la langue Arabe. Dans un premier temps, nous étudions plusieurs méthodes de lissage pour identifier celle qui s'adapte le mieux pour la langue Arabe. D'autant plus que dans notre cas nous ne disposions pas de corpus suffisamment large. Pour pallier l'insuffisance des données, nous avons segmenté les mots en morphèmes. Nous avons donc calculé un modèle de langage de morphèmes qui a donné de meilleurs résultats que que le modèle n-gramme. Nous avons ensuite testé des modèles distants pour examiner leurs apports dans la modélisation statistique de la langue Arabe. Enfin, nous avons étudié les modèles de langage de plusieurs langues endo-européennes que nous avons comparés avec le modèle pour la langue Arabe. L'objectif étant de savoir si les standards utilisés pour les langues endo-européennes s'adaptent à la langue Arabe.
- Langue du document : Anglais
- Titre de la revue : Arabian Journal for Science and Engineering
- Date de publication : 01/12/2010
- Audience : internationale
- Editeur commercial : King Fahd University of Petroleum and Minerals SAUDI ARABIA
- Titre volume : Theme issue on Arabic Computing
- Volume : 35
- Numéro : 2C
- Pagination : 69-82
- Mots-clés : Modèle de langage – morphèmes – perplexité – lissage – modèle distant
- Date de rédaction : 01/12/2009
- inria-00582493, version 1
- http://hal.inria.fr/inria-00582493
- oai:hal.inria.fr:inria-00582493
- Contributeur :
- Soumis le : Vendredi 1 Avril 2011, 16:00:07
- Dernière modification le : Vendredi 1 Avril 2011, 16:00:07


Exporter