Segmentation Parole/Musique pour la transcription automatique

Joseph Razik 1 Dominique Fohr 1 Odile Mella 1 Nathalie Parlangeau-Vallès
1 PAROLE - Analysis, perception and recognition of speech
INRIA Lorraine, LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications
Abstract : Dans cet article nous présentons une étude sur l'utilisation des paramètres MFCC dans la tâche de segmentation parole/musique indispensable dans les applications de transcription automatique d'émissions radiophoniques. Nous avons étudié, l'influence du nombre de coefficients MFCC, celle des paramètres dynamiques et notamment celui de la variance des coefficients MFCC calculée sur une seconde. Les tests ont été effectués sur un corpus radiophonique réel et difficile et sur le corpus de Scheirer. || The speech/music segmentation process is very useful as a first step for different tasks like speech recognition or automatic transcription. In this article, we present some studies about the use of MFCC for this speech/music segmentation. We mainly use a realworld broadcast corpus with various backgrounds and superimposed segments (speech with music). We investigate the role of the number of cepstral coefficients, the influence of different kinds of dynamic parameters, and the robustness of some of them when a mismatch between train and test conditions occurs. So we can notice that the standard MFCC coefficients with the first and second derivatives achieve good results. But, better performances were obtained with dynamic parameters and mainly with the variance of the static coefficients computed on a long–term window (1s).
Type de document :
Communication dans un congrès
Actes des XXVes Journées d'Etude sur la Parole - JEP'2004, 2004, Fès, Maroc. AFCP, 4 p, 2004
Liste complète des métadonnées

https://hal.inria.fr/inria-00107763
Contributeur : Publications Loria <>
Soumis le : jeudi 19 octobre 2006 - 09:08:15
Dernière modification le : jeudi 11 janvier 2018 - 06:19:55
Document(s) archivé(s) le : vendredi 25 novembre 2016 - 13:03:08

Identifiants

  • HAL Id : inria-00107763, version 1

Collections

Citation

Joseph Razik, Dominique Fohr, Odile Mella, Nathalie Parlangeau-Vallès. Segmentation Parole/Musique pour la transcription automatique. Actes des XXVes Journées d'Etude sur la Parole - JEP'2004, 2004, Fès, Maroc. AFCP, 4 p, 2004. 〈inria-00107763〉

Partager

Métriques

Consultations de la notice

378

Téléchargements de fichiers

145