De l'importance de l'homogénéisation des conventions de transcription pour l'alignement automatique de corpus oraux de parole spontanée

Dominique Fohr 1 Odile Mella 1 Denis Jouvet 1
1 MULTISPEECH - Speech Modeling for Facilitating Oral-Based Communication
Inria Nancy - Grand Est, LORIA - NLPKD - Department of Natural Language Processing & Knowledge Discovery
Résumé : Afin de pouvoir offrir à la communauté scientifique un Corpus d’Étude pour le Français Contemporain écrit et oral (CEFC), le projet ANR ORFEO (Outils et Recherches sur le Français Ecrit et Oral) a décidé de rassembler sur une plate-forme plusieurs corpus oraux existants en associant à chacun un ensemble de couches d’annotation. La couche d’annotation la plus proche du signal audio est le résultat de l’alignement automatique en phonèmes et en mots d’un fichier audio à partir de la transcription orthographique associée à ce fichier audio. Les corpus rassemblés dans le projet ont été orthographiquement transcrits par différents laboratoires en utilisant des conventions propres à chaque laboratoire et donc hétérogènes. Au LORIA, nous avons développé le logiciel ASTALI (Automatic Speech-Text ALIgnment) pour réaliser automatiquement l’alignement en phonèmes et en mots de corpus oraux. L’objet de cet article est de présenter les difficultés rencontrées lors de l’adaptation de notre outil pour l’alignement des différents corpus ORFEO du fait de l’hétérogénéité des conventions de transcription.
Type de document :
Communication dans un congrès
8es Journées Internationales de Linguistique de Corpus (JLC2015), Sep 2015, Orléans, France. 2015
Liste complète des métadonnées

Littérature citée [5 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/hal-01183352
Contributeur : Odile Mella <>
Soumis le : lundi 10 août 2015 - 14:30:05
Dernière modification le : jeudi 11 janvier 2018 - 06:27:31
Document(s) archivé(s) le : mercredi 11 novembre 2015 - 10:13:08

Fichier

JLC2015_v4.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01183352, version 1

Collections

Citation

Dominique Fohr, Odile Mella, Denis Jouvet. De l'importance de l'homogénéisation des conventions de transcription pour l'alignement automatique de corpus oraux de parole spontanée. 8es Journées Internationales de Linguistique de Corpus (JLC2015), Sep 2015, Orléans, France. 2015. 〈hal-01183352〉

Partager

Métriques

Consultations de la notice

245

Téléchargements de fichiers

152