Segmentation Parole/Musique pour la transcription automatique

Joseph Razik; Dominique Fohr; Odile Mella; Nathalie Parlangeau-Vallès

Communication Dans Un Congrès Année : 2004

Segmentation Parole/Musique pour la transcription automatique

(1) , (1) , (1) ,

Joseph Razik

Fonction : Auteur

Analysis, perception and recognition of speech

Dominique Fohr

Fonction : Auteur
PersonId : 15652
IdHAL : dominique-fohr
IdRef : 031092942

Analysis, perception and recognition of speech

Odile Mella

Fonction : Auteur
PersonId : 15902
IdHAL : odile-mella
IdRef : 12011903X

Analysis, perception and recognition of speech

Nathalie Parlangeau-Vallès

Fonction : Auteur
PersonId : 752506
IdHAL : nathalie-valles-parlangeau
ORCID : 0000-0002-4463-5177
IdRef : 129047805

Résumé

Dans cet article nous présentons une étude sur l'utilisation des paramètres MFCC dans la tâche de segmentation parole/musique indispensable dans les applications de transcription automatique d'émissions radiophoniques. Nous avons étudié, l'influence du nombre de coefficients MFCC, celle des paramètres dynamiques et notamment celui de la variance des coefficients MFCC calculée sur une seconde. Les tests ont été effectués sur un corpus radiophonique réel et difficile et sur le corpus de Scheirer. || The speech/music segmentation process is very useful as a first step for different tasks like speech recognition or automatic transcription. In this article, we present some studies about the use of MFCC for this speech/music segmentation. We mainly use a realworld broadcast corpus with various backgrounds and superimposed segments (speech with music). We investigate the role of the number of cepstral coefficients, the influence of different kinds of dynamic parameters, and the robustness of some of them when a mismatch between train and test conditions occurs. So we can notice that the standard MFCC coefficients with the first and second derivatives achieve good results. But, better performances were obtained with dynamic parameters and mainly with the variance of the static coefficients computed on a longterm window (1s).

Mots clés

speech/music segmentation speech recognition automatic transcription gmm transcription automatique reconnaissance de la parole modélisation gmm paramétrisation mfcc mfcc segmentation parole/musique

Domaines

Autre [cs.OH]

Fichier principal

A04-R-036.pdf (163.38 Ko)

Publications Loria : Connectez-vous pour contacter le contributeur

https://inria.hal.science/inria-00107763

Soumis le : jeudi 19 octobre 2006-09:08:15

Dernière modification le : vendredi 24 mars 2023-14:52:48

Archivage à long terme le : vendredi 25 novembre 2016-13:03:08

Dates et versions

inria-00107763 , version 1 (19-10-2006)

Identifiants

HAL Id : inria-00107763 , version 1

Citer

Joseph Razik, Dominique Fohr, Odile Mella, Nathalie Parlangeau-Vallès. Segmentation Parole/Musique pour la transcription automatique. Actes des XXVes Journées d'Etude sur la Parole - JEP'2004, 2004, Fès, Maroc. 4 p. ⟨inria-00107763⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS INRIA UNIV-LORRAINE INRIA2 LORIA

225 Consultations

239 Téléchargements

Segmentation Parole/Musique pour la transcription automatique

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager