A Tractable Framework for Estimating and Combining Spectral Source Models for Audio Source Separation - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Rapport (Rapport De Recherche) Année : 2011

A Tractable Framework for Estimating and Combining Spectral Source Models for Audio Source Separation

Simon Arberet
  • Fonction : Auteur
  • PersonId : 882921
Alexey Ozerov
  • Fonction : Auteur
  • PersonId : 888401

Résumé

The underdetermined blind audio source separation (BSS) problem is often addressed in the time-frequency (TF) domain assuming that each TF point is modeled as an independent random variable with sparse distribution. On the other hand, methods based on structured spectral model, such as the Spectral Gaussian Scale Mixture Models (Spectral-GSMMs) or Spectral Nonnegative Matrix Factorization models, perform better because they exploit the statistical diversity of audio source spectrograms, thus allowing to go beyond the simple sparsity assumption. However, in the case of discrete state-based models, such as Spectral-GSMMs, learning the models from the mixture can be computationally very expensive. One of the main problem is that using a classical Expectation-Maximization procedure often leads to an exponential complexity with respect to the number of sources. In this paper, we propose a framework with a linear complexity to learn spectral source models (including discrete state-based models) from noisy source estimates. Moreover, this framework allows combining probabilistic models of di erent nature that can be seen as a sort of probabilistic fusion. We illustrate that methods based on this framework can significantly improve the BSS performance compared to the state-of-the-art approaches.
La séparation aveugle de sources audio (SAS) est souvent traitée dans le plan temps-fréquence (TF), en partant de l'hypothèse que chaque point TF est la réalisation d'une variable aléatoire indépendante ayant une distribution parcimonieuse. D'autre part, les méthodes fondées sur un modèle spectral, telles que les modèles de mélanges de gaussiennes spectraux (MMG-Spectraux) ou les modèles de factorisation en matrices non-négatives spectraux (FMN-spectraux), obtiennent de meilleurs résultats parce qu'ils exploitent la diversité statistique des spectrogrammes des sources audio, permettant ainsi d'aller au-delà de la simple hypothèse de parcimonie. Cependant, dans le cas des modèles à états discrets, tels que les MMG-Spectraux, l'apprentissage à partire du mélange peut être d'une complexité rédhibitoire. Un des problèmes majeurs est que l'utilisation de la procédure Espérance-Maximisation (EM) aboutit à une complexité calculatoire exponentielle par rapport au nombre de sources. Dans cet article, nous proposons un cadre, d'une complexité calculatoire linéaire, pour apprendre des modèles de sources (y compris des modèles à états discrets) à partir d'estimations bruitées des sources. De plus, ce cadre permet de combiner des modèles probabilistes de différentes natures et permet ainsi de faire une sorte de "fusion" probabiliste. Nous montrons que des méthodes construites à partir de ce cadre permettent d'améliorer les performances de SAS par rapport aux méthodes de l'état de l'art.
Fichier principal
Vignette du fichier
RR-7556.pdf (7.93 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

inria-00572249 , version 1 (01-03-2011)
inria-00572249 , version 2 (04-05-2012)

Identifiants

  • HAL Id : inria-00572249 , version 2

Citer

Simon Arberet, Alexey Ozerov, Frédéric Bimbot, Rémi Gribonval. A Tractable Framework for Estimating and Combining Spectral Source Models for Audio Source Separation. [Research Report] RR-7556, 2011, pp.27. ⟨inria-00572249v2⟩
312 Consultations
227 Téléchargements

Partager

Gmail Facebook X LinkedIn More