Constitution d'un corpus de la langue Arabe à partir du Web - Archive ouverte HAL Access content directly
Conference Papers Year : 2007

Constitution d'un corpus de la langue Arabe à partir du Web

(1) , (2) , (1)
1
2

Abstract

La toile est une source intarissable de données textuelles. Ces dernières années la communauté travaillant sur les différents aspects de la langue s'est tournée vers le web afin de bénéficier de cette masse impressionnante d'informations. Cet article décrit un outil de construction de corpus pour l'Arabe. Il permet de recueillir automatiquement une liste de sites dédiés à la langue Arabe. Ensuite le contenu de ces sites est extrait et est normalisé. Le corpus ainsi constitué peut être utilisé dans diverses applications de traitement du langage naturel et plus particulièrement dans le calcul de modèles de langage statistiques.
Not file

Dates and versions

inria-00186536 , version 1 (09-11-2007)

Identifiers

  • HAL Id : inria-00186536 , version 1

Cite

K. Meftouh, Kamel Smaïli, Med Tayeb Laskri. Constitution d'un corpus de la langue Arabe à partir du Web. Colloque International sur le Traitement Automatique de la Langue Arabe - CITALA'07, Oct 2007, Rabat, Maroc. ⟨inria-00186536⟩
329 View
0 Download

Share

Gmail Facebook Twitter LinkedIn More