Multichannel audio source separation with deep neural networks

Aditya Arie Nugraha; Antoine Liutkus; Emmanuel Vincent

Rapport (Rapport De Recherche) Année : 2016

Multichannel audio source separation with deep neural networks

Séparation de sources audio multicanale par réseaux de neurones profonds

(1) , (1) , (1)

Aditya Arie Nugraha

Fonction : Auteur
PersonId : 967049

Speech Modeling for Facilitating Oral-Based Communication

Antoine Liutkus

Fonction : Auteur
PersonId : 2740
IdHAL : antoine-liutkus
ORCID : 0000-0002-3458-6498
IdRef : 167600419

Speech Modeling for Facilitating Oral-Based Communication

Emmanuel Vincent

Fonction : Auteur
PersonId : 1256
IdHAL : emmanuelv
ORCID : 0000-0002-0183-7289
IdRef : 089360176

Speech Modeling for Facilitating Oral-Based Communication

Résumé

This research report addresses the problem of multichannel audio source separation. We propose a deep neural network (DNN) based framework where the source spectra are estimated using DNNs and used in a multichannel filter. The filter is derived using an iterative expectation-maximization (EM) algorithm, in which spatial covariance matrices encode the spatial information. We present an extensive experimental study to show the impact of different design choices on the performance of the proposed technique. We consider different cost functions for the training of DNNs, namely Itakura-Saito (IS) divergence, Cauchy cost function, phase-sensitive cost function, and mean squared error (MSE). The use of probabilistically motivated cost function, such as the IS divergence, is interesting because it leads to a mathematically rigorous EM interpretation for the proposed framework. We also study the number of EM iterations and the use of multiple DNNs, where each DNN aims to improve the spectra estimated by the preceding EM iteration. Finally, we present its application to a speech enhancement problem. The experimental results show the benefit of the proposed multichannel approach over a single-channel DNN-based approach.

Ce rapport porte sur le problème de la séparation de sources audio multicanal. Nous proposons un cadre basé sur les réseaux de neurones profonds (deep neural networks ou DNNs) où les spectres des sources sont estimé par des DNNs et utilisés dans un filtre multicanal. Ce filtre est obtenu en utilisant un algorithme espérance-maximisation (EM), dans lequel des matrices de covariance spatiale encodent l'information spatiale. Nous présentons une étude expérimentale approfondie montrant l'impact de différents choix sur la performance de la technique proposée. Nous considérons différentes fonctions de coût pour l'apprentissage des DNNs: la divergence d'Itakura-Saito (IS) divergence, la fonction de coût de Cauchy, une fonction de coût sensible à la phase, et l'erreur quadratique moyenne (mean squared error ou MSE). L'usage de fonctions de coût motivées par la théorie des probabilités, comme la divergence IS et la fonction de coût de Cauchy, est intéressant car il permet une interprétation probabiliste rigoureuse de l'algorithme EM proposé. Nous étudions aussi le nombre d'itérations EM et l'usage de DNNs multiples, où chaque DNN vise à améliorer les spectres estimés à l'itération EM précédente. Enfin, nous présentons l'application de cette technique à un problème de rehaussement de la parole. Les résultats expérimentaux montrent le potentiel de l'approche multicanal proposée par rapport à une approche basée sur les DNNs à un seul canal.

Mots clés

audio source separation speech enhancement multichannel deep neural networks (DNN) expectation-maximization (EM)

séparation de sources audio rehaussement de la parole multicanal réseaux de neurones profonds algorithme Espérance-Maximisation (EM)

Domaines

Traitement du signal et de l'image [eess.SP]

Fichier principal

RR-8740v2.pdf (821.02 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Aditya Arie Nugraha : Connectez-vous pour contacter le contributeur

https://inria.hal.science/hal-01163369

Soumis le : vendredi 5 février 2016-16:53:21

Dernière modification le : lundi 11 septembre 2023-17:41:19

Dates et versions

hal-01163369 , version 1 (12-06-2015)

hal-01163369 , version 2 (16-07-2015)

hal-01163369 , version 3 (05-02-2016)

hal-01163369 , version 4 (12-05-2016)

hal-01163369 , version 5 (21-06-2016)

Identifiants

HAL Id : hal-01163369 , version 3

Citer

Aditya Arie Nugraha, Antoine Liutkus, Emmanuel Vincent. Multichannel audio source separation with deep neural networks. [Research Report] RR-8740, Inria. 2016. ⟨hal-01163369v3⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

2143 Consultations

10550 Téléchargements

Multichannel audio source separation with deep neural networks

Séparation de sources audio multicanale par réseaux de neurones profonds

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Partager