Développement de ressources pour le persan : le nouveau lexique morphologique PerLex 2 et l'étiqueteur morphosyntaxique MElt-fa

Résumé : Dans cet article nous présentons une nouvelle version de PerLex, lexique morphologique du persan, une version corrigée et partiellement réannotée du corpus étiqueté BijanKhan (BijanKhan, 2004) et MEltfa, un nouvel étiqueteur morphosyntaxique librement disponible pour le persan. Après avoir développé une première version de PerLex (Sagot & Walther, 2010), nous en proposons donc ici une version améliorée. Outre une validation manuelle partielle, PerLex 2 repose désormais sur un inventaire de catégories linguistiquement motivé. Nous avons également développé une nouvelle version du corpus BijanKhan : cette nouvelle version contient des corrections significatives de la tokenisation ainsi qu'un réétiquetage à l'aide des nouvelles catégories. Cette nouvelle version du corpus a enfin été utilisée pour l'entraînement de MEltfa, notre étiqueteur morphosyntaxique pour le persan librement disponible, s'appuyant à la fois sur ce nouvel inventaire de catégories, sur PerLex 2 et sur le système d'étiquetage MElt (Denis & Sagot, 2009).
Type de document :
Communication dans un congrès
TALN 2011 - Traitement Automatique des Langues Naturelles, Jun 2011, Montpellier, France. 2011
Liste complète des métadonnées

https://hal.inria.fr/inria-00614710
Contributeur : Benoît Sagot <>
Soumis le : lundi 15 août 2011 - 12:00:30
Dernière modification le : vendredi 24 mars 2017 - 09:57:31
Document(s) archivé(s) le : dimanche 4 décembre 2016 - 11:25:31

Fichier

TALN11pergram.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : inria-00614710, version 1

Collections

Citation

Benoît Sagot, Géraldine Walther, Pegah Faghiri, Pollet Samvelian. Développement de ressources pour le persan : le nouveau lexique morphologique PerLex 2 et l'étiqueteur morphosyntaxique MElt-fa. TALN 2011 - Traitement Automatique des Langues Naturelles, Jun 2011, Montpellier, France. 2011. 〈inria-00614710〉

Partager

Métriques

Consultations de la notice

391

Téléchargements de fichiers

137