De l'importance de l'homogénéisation des conventions de transcription pour l'alignement automatique de corpus oraux de parole spontanée - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Communication Dans Un Congrès Année : 2015

De l'importance de l'homogénéisation des conventions de transcription pour l'alignement automatique de corpus oraux de parole spontanée

Résumé

Afin de pouvoir offrir à la communauté scientifique un Corpus d’Étude pour le Français Contemporain écrit et oral (CEFC), le projet ANR ORFEO (Outils et Recherches sur le Français Ecrit et Oral) a décidé de rassembler sur une plate-forme plusieurs corpus oraux existants en associant à chacun un ensemble de couches d’annotation. La couche d’annotation la plus proche du signal audio est le résultat de l’alignement automatique en phonèmes et en mots d’un fichier audio à partir de la transcription orthographique associée à ce fichier audio. Les corpus rassemblés dans le projet ont été orthographiquement transcrits par différents laboratoires en utilisant des conventions propres à chaque laboratoire et donc hétérogènes. Au LORIA, nous avons développé le logiciel ASTALI (Automatic Speech-Text ALIgnment) pour réaliser automatiquement l’alignement en phonèmes et en mots de corpus oraux. L’objet de cet article est de présenter les difficultés rencontrées lors de l’adaptation de notre outil pour l’alignement des différents corpus ORFEO du fait de l’hétérogénéité des conventions de transcription.
Fichier principal
Vignette du fichier
JLC2015_v4.pdf (577.7 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-01183352 , version 1 (10-08-2015)

Identifiants

  • HAL Id : hal-01183352 , version 1

Citer

Dominique Fohr, Odile Mella, Denis Jouvet. De l'importance de l'homogénéisation des conventions de transcription pour l'alignement automatique de corpus oraux de parole spontanée. 8es Journées Internationales de Linguistique de Corpus (JLC2015), Sep 2015, Orléans, France. ⟨hal-01183352⟩
357 Consultations
207 Téléchargements

Partager

Gmail Facebook X LinkedIn More