Construction faiblement supervisée d'un phonétiseur pour la langue Iban à partir de ressources en Malais - Archive ouverte HAL Access content directly
Conference Papers Year : 2014

Construction faiblement supervisée d'un phonétiseur pour la langue Iban à partir de ressources en Malais

Abstract

This paper describes our experiments and results on using a local dominant language in Malaysia (Malay), to bootstrap automatic speech recognition (ASR) for a very under-resourced language : iban (also spoken in Malaysia on the Borneo Island part). Resources in iban for building a speech recognition were nonexistent. For this, we tried to take advantage of a language from the same family with several similarities. First, to deal with the pronunciation dictionary, we proposed a bootstrapping strategy to develop an iban pronunciation lexicon from a Malay one. A hybrid version, mix of Malay and iban pronunciations, was also built and evaluated. Following this, we experimented with three iban ASRs ; each depended on either one of the three different pronunciation dictionaries : Malay, iban or hybrid.
Cet article décrit notre collecte de ressources pour la langue iban (parlée notamment sur l'île de Bornéo), dans l'objectif de construire un système de reconnaissance automatique de la parole pour cette langue. Nous nous sommes plus particulièrement focalisés sur une méthodologie d'amorçage du lexique phonétisé à partir d'une langue proche (le malais). Les performances des premiers systèmes de reconnaissance automatique de la parole construits pour l'iban (< 20% WER) montrent que l'utilisation d'un phonétiseur déjà disponible dans une langue proche (le malais) est une option tout à fait viable pour amorcer le développement d'un système de RAP dans une nouvelle langue très peu dotée. Une première analyse des erreurs fait ressortir des problèmes bien connus pour les langues peu dotées : problèmes de normalisation de l'orthographe, erreurs liées à la morphologie (séparation ou non des affixes de la racine).
Fichier principal
Vignette du fichier
jep2014-sarah.pdf (124.53 Ko) Télécharger le fichier
Origin : Files produced by the author(s)
Loading...

Dates and versions

hal-01002921 , version 1 (07-06-2014)

Identifiers

  • HAL Id : hal-01002921 , version 1

Cite

Sarah Samson Juan, Laurent Besacier, Solange Rossato. Construction faiblement supervisée d'un phonétiseur pour la langue Iban à partir de ressources en Malais. Journées d'Etude sur la Parole (JEP), Jun 2014, Le Mans, France. ⟨hal-01002921⟩
151 View
133 Download

Share

Gmail Facebook Twitter LinkedIn More