Constitution d'un corpus de la langue Arabe à partir du Web

K. Meftouh 1 Kamel Smaïli 2 Med Tayeb Laskri 1
2 PAROLE - Analysis, perception and recognition of speech
INRIA Lorraine, LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications
Résumé : La toile est une source intarissable de données textuelles. Ces dernières années la communauté travaillant sur les différents aspects de la langue s'est tournée vers le web afin de bénéficier de cette masse impressionnante d'informations. Cet article décrit un outil de construction de corpus pour l'Arabe. Il permet de recueillir automatiquement une liste de sites dédiés à la langue Arabe. Ensuite le contenu de ces sites est extrait et est normalisé. Le corpus ainsi constitué peut être utilisé dans diverses applications de traitement du langage naturel et plus particulièrement dans le calcul de modèles de langage statistiques.
Document type :
Conference papers
Complete list of metadatas

https://hal.inria.fr/inria-00186536
Contributor : Caroline Lavecchia <>
Submitted on : Friday, November 9, 2007 - 3:50:25 PM
Last modification on : Sunday, April 8, 2018 - 11:48:13 AM

Identifiers

  • HAL Id : inria-00186536, version 1

Collections

Citation

K. Meftouh, Kamel Smaïli, Med Tayeb Laskri. Constitution d'un corpus de la langue Arabe à partir du Web. Colloque International sur le Traitement Automatique de la Langue Arabe - CITALA'07, Oct 2007, Rabat, Maroc. ⟨inria-00186536⟩

Share

Metrics

Record views

455