Segmentation Parole/Musique pour la transcription automatique - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Communication Dans Un Congrès Année : 2004

Segmentation Parole/Musique pour la transcription automatique

Résumé

Dans cet article nous présentons une étude sur l'utilisation des paramètres MFCC dans la tâche de segmentation parole/musique indispensable dans les applications de transcription automatique d'émissions radiophoniques. Nous avons étudié, l'influence du nombre de coefficients MFCC, celle des paramètres dynamiques et notamment celui de la variance des coefficients MFCC calculée sur une seconde. Les tests ont été effectués sur un corpus radiophonique réel et difficile et sur le corpus de Scheirer. || The speech/music segmentation process is very useful as a first step for different tasks like speech recognition or automatic transcription. In this article, we present some studies about the use of MFCC for this speech/music segmentation. We mainly use a realworld broadcast corpus with various backgrounds and superimposed segments (speech with music). We investigate the role of the number of cepstral coefficients, the influence of different kinds of dynamic parameters, and the robustness of some of them when a mismatch between train and test conditions occurs. So we can notice that the standard MFCC coefficients with the first and second derivatives achieve good results. But, better performances were obtained with dynamic parameters and mainly with the variance of the static coefficients computed on a long–term window (1s).
Fichier principal
Vignette du fichier
A04-R-036.pdf (163.38 Ko) Télécharger le fichier

Dates et versions

inria-00107763 , version 1 (19-10-2006)

Identifiants

  • HAL Id : inria-00107763 , version 1

Citer

Joseph Razik, Dominique Fohr, Odile Mella, Nathalie Parlangeau-Vallès. Segmentation Parole/Musique pour la transcription automatique. Actes des XXVes Journées d'Etude sur la Parole - JEP'2004, 2004, Fès, Maroc. 4 p. ⟨inria-00107763⟩
225 Consultations
239 Téléchargements

Partager

Gmail Facebook X LinkedIn More