Modernizing historical Slovene words with character-based SMT

Abstract : We propose a language-independent word normalization method exemplified on modernizing historical Slovene words. Our method relies on character-based statistical machine translation and uses only shallow knowledge. We present the relevant lexicons and two experiments. In one, we use a lexicon of historical word--contemporary word pairs and a list of contemporary words; in the other, we only use a list of historical words and one of contemporary ones. We show that both methods produce significantly better results than the baseline.
Type de document :
Communication dans un congrès
BSNLP 2013 - 4th Biennial Workshop on Balto-Slavic Natural Language Processing, Aug 2013, Sofia, Bulgaria. 2013
Liste complète des métadonnées

Littérature citée [19 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/hal-00838575
Contributeur : Yves Scherrer <>
Soumis le : mercredi 26 juin 2013 - 09:23:23
Dernière modification le : vendredi 25 mai 2018 - 12:02:05
Document(s) archivé(s) le : mercredi 5 avril 2017 - 04:38:49

Fichier

13-scherrer-modernize.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-00838575, version 1

Collections

Citation

Yves Scherrer, Tomaž Erjavec. Modernizing historical Slovene words with character-based SMT. BSNLP 2013 - 4th Biennial Workshop on Balto-Slavic Natural Language Processing, Aug 2013, Sofia, Bulgaria. 2013. 〈hal-00838575〉

Partager

Métriques

Consultations de la notice

449

Téléchargements de fichiers

802