Constitution d'un corpus de la langue Arabe à partir du Web

K. Meftouh 1 Kamel Smaïli 2 Med Tayeb Laskri 1
2 PAROLE - Analysis, perception and recognition of speech
INRIA Lorraine, LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications
Résumé : La toile est une source intarissable de données textuelles. Ces dernières années la communauté travaillant sur les différents aspects de la langue s'est tournée vers le web afin de bénéficier de cette masse impressionnante d'informations. Cet article décrit un outil de construction de corpus pour l'Arabe. Il permet de recueillir automatiquement une liste de sites dédiés à la langue Arabe. Ensuite le contenu de ces sites est extrait et est normalisé. Le corpus ainsi constitué peut être utilisé dans diverses applications de traitement du langage naturel et plus particulièrement dans le calcul de modèles de langage statistiques.
Type de document :
Communication dans un congrès
Colloque International sur le Traitement Automatique de la Langue Arabe - CITALA'07, Oct 2007, Rabat, Maroc. 2007
Liste complète des métadonnées

https://hal.inria.fr/inria-00186536
Contributeur : Caroline Lavecchia <>
Soumis le : vendredi 9 novembre 2007 - 15:50:25
Dernière modification le : jeudi 11 janvier 2018 - 06:19:56

Identifiants

  • HAL Id : inria-00186536, version 1

Collections

Citation

K. Meftouh, Kamel Smaïli, Med Tayeb Laskri. Constitution d'un corpus de la langue Arabe à partir du Web. Colloque International sur le Traitement Automatique de la Langue Arabe - CITALA'07, Oct 2007, Rabat, Maroc. 2007. 〈inria-00186536〉

Partager

Métriques

Consultations de la notice

342