Constitution d'un corpus de la langue Arabe à partir du Web - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Communication Dans Un Congrès Année : 2007

Constitution d'un corpus de la langue Arabe à partir du Web

Résumé

La toile est une source intarissable de données textuelles. Ces dernières années la communauté travaillant sur les différents aspects de la langue s'est tournée vers le web afin de bénéficier de cette masse impressionnante d'informations. Cet article décrit un outil de construction de corpus pour l'Arabe. Il permet de recueillir automatiquement une liste de sites dédiés à la langue Arabe. Ensuite le contenu de ces sites est extrait et est normalisé. Le corpus ainsi constitué peut être utilisé dans diverses applications de traitement du langage naturel et plus particulièrement dans le calcul de modèles de langage statistiques.
Fichier non déposé

Dates et versions

inria-00186536 , version 1 (09-11-2007)

Identifiants

  • HAL Id : inria-00186536 , version 1

Citer

K. Meftouh, Kamel Smaïli, Med Tayeb Laskri. Constitution d'un corpus de la langue Arabe à partir du Web. Colloque International sur le Traitement Automatique de la Langue Arabe - CITALA'07, Oct 2007, Rabat, Maroc. ⟨inria-00186536⟩
363 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More