De l'importance de l'homogénéisation des conventions de transcription pour l'alignement automatique de corpus oraux de parole spontanée

Dominique Fohr 1 Odile Mella 1 Denis Jouvet 1
1 MULTISPEECH - Speech Modeling for Facilitating Oral-Based Communication
Inria Nancy - Grand Est, LORIA - NLPKD - Department of Natural Language Processing & Knowledge Discovery
Résumé : Afin de pouvoir offrir à la communauté scientifique un Corpus d’Étude pour le Français Contemporain écrit et oral (CEFC), le projet ANR ORFEO (Outils et Recherches sur le Français Ecrit et Oral) a décidé de rassembler sur une plate-forme plusieurs corpus oraux existants en associant à chacun un ensemble de couches d’annotation. La couche d’annotation la plus proche du signal audio est le résultat de l’alignement automatique en phonèmes et en mots d’un fichier audio à partir de la transcription orthographique associée à ce fichier audio. Les corpus rassemblés dans le projet ont été orthographiquement transcrits par différents laboratoires en utilisant des conventions propres à chaque laboratoire et donc hétérogènes. Au LORIA, nous avons développé le logiciel ASTALI (Automatic Speech-Text ALIgnment) pour réaliser automatiquement l’alignement en phonèmes et en mots de corpus oraux. L’objet de cet article est de présenter les difficultés rencontrées lors de l’adaptation de notre outil pour l’alignement des différents corpus ORFEO du fait de l’hétérogénéité des conventions de transcription.
Document type :
Conference papers
Complete list of metadatas

Cited literature [5 references]  Display  Hide  Download

https://hal.inria.fr/hal-01183352
Contributor : Odile Mella <>
Submitted on : Monday, August 10, 2015 - 2:30:05 PM
Last modification on : Tuesday, December 18, 2018 - 4:38:02 PM
Long-term archiving on: Wednesday, November 11, 2015 - 10:13:08 AM

File

JLC2015_v4.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : hal-01183352, version 1

Collections

Citation

Dominique Fohr, Odile Mella, Denis Jouvet. De l'importance de l'homogénéisation des conventions de transcription pour l'alignement automatique de corpus oraux de parole spontanée. 8es Journées Internationales de Linguistique de Corpus (JLC2015), Sep 2015, Orléans, France. ⟨hal-01183352⟩

Share

Metrics

Record views

387

Files downloads

218