A Tractable Framework for Estimating and Combining Spectral Source Models for Audio Source Separation

Simon Arberet 1 Alexey Ozerov 2 Frédéric Bimbot 2 Rémi Gribonval 2
2 METISS - Speech and sound data modeling and processing
IRISA - Institut de Recherche en Informatique et Systèmes Aléatoires, Inria Rennes – Bretagne Atlantique
Résumé : La séparation aveugle de sources audio (SAS) est souvent traitée dans le plan temps-fréquence (TF), en partant de l'hypothèse que chaque point TF est la réalisation d'une variable aléatoire indépendante ayant une distribution parcimonieuse. D'autre part, les méthodes fondées sur un modèle spectral, telles que les modèles de mélanges de gaussiennes spectraux (MMG-Spectraux) ou les modèles de factorisation en matrices non-négatives spectraux (FMN-spectraux), obtiennent de meilleurs résultats parce qu'ils exploitent la diversité statistique des spectrogrammes des sources audio, permettant ainsi d'aller au-delà de la simple hypothèse de parcimonie. Cependant, dans le cas des modèles à états discrets, tels que les MMG-Spectraux, l'apprentissage à partire du mélange peut être d'une complexité rédhibitoire. Un des problèmes majeurs est que l'utilisation de la procédure Espérance-Maximisation (EM) aboutit à une complexité calculatoire exponentielle par rapport au nombre de sources. Dans cet article, nous proposons un cadre, d'une complexité calculatoire linéaire, pour apprendre des modèles de sources (y compris des modèles à états discrets) à partir d'estimations bruitées des sources. De plus, ce cadre permet de combiner des modèles probabilistes de différentes natures et permet ainsi de faire une sorte de "fusion" probabiliste. Nous montrons que des méthodes construites à partir de ce cadre permettent d'améliorer les performances de SAS par rapport aux méthodes de l'état de l'art.
Type de document :
Rapport
[Research Report] RR-7556, 2011, pp.27
Liste complète des métadonnées

https://hal.inria.fr/inria-00572249
Contributeur : Alexey Ozerov <>
Soumis le : vendredi 4 mai 2012 - 11:40:58
Dernière modification le : mercredi 16 mai 2018 - 11:23:03
Document(s) archivé(s) le : jeudi 15 décembre 2016 - 04:11:38

Fichier

RR-7556.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : inria-00572249, version 2

Citation

Simon Arberet, Alexey Ozerov, Frédéric Bimbot, Rémi Gribonval. A Tractable Framework for Estimating and Combining Spectral Source Models for Audio Source Separation. [Research Report] RR-7556, 2011, pp.27. 〈inria-00572249v2〉

Partager

Métriques

Consultations de la notice

559

Téléchargements de fichiers

115