Skip to Main content Skip to Navigation
Reports

Multichannel audio source separation with deep neural networks

Aditya Arie Nugraha 1 Antoine Liutkus 1 Emmanuel Vincent 1
1 MULTISPEECH - Speech Modeling for Facilitating Oral-Based Communication
Inria Nancy - Grand Est, LORIA - NLPKD - Department of Natural Language Processing & Knowledge Discovery
Résumé : Ce rapport porte sur le problème de la séparation de sources audio multicanal. Nous proposons un cadre basé sur les réseaux de neurones profonds (deep neural networks ou DNNs) où les spectres des sources sont estimé par des DNNs et utilisés dans un filtre multicanal. Ce filtre est obtenu en utilisant un algorithme espérance-maximisation (EM), dans lequel des matrices de covariance spatiale encodent l'information spatiale. Nous présentons une étude expérimentale approfondie montrant l'impact de différents choix sur la performance de la technique proposée. Nous considérons différentes fonctions de coût pour l'apprentissage des DNNs: la divergence d'Itakura-Saito (IS) divergence, la fonction de coût de Cauchy, une fonction de coût sensible à la phase, et l'erreur quadratique moyenne (mean squared error ou MSE). L'usage de fonctions de coût motivées par la théorie des probabilités, comme la divergence IS et la fonction de coût de Cauchy, est intéressant car il permet une interprétation probabiliste rigoureuse de l'algorithme EM proposé. Nous étudions aussi le nombre d'itérations EM et l'usage de DNNs multiples, où chaque DNN vise à améliorer les spectres estimés à l'itération EM précédente. Enfin, nous présentons l'application de cette technique à un problème de rehaussement de la parole. Les résultats expérimentaux montrent le potentiel de l'approche multicanal proposée par rapport à une approche basée sur les DNNs à un seul canal.
Document type :
Reports
Complete list of metadatas

https://hal.inria.fr/hal-01163369
Contributor : Aditya Arie Nugraha <>
Submitted on : Friday, February 5, 2016 - 4:53:21 PM
Last modification on : Saturday, November 16, 2019 - 7:04:01 PM

File

RR-8740v2.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : hal-01163369, version 3

Citation

Aditya Arie Nugraha, Antoine Liutkus, Emmanuel Vincent. Multichannel audio source separation with deep neural networks. [Research Report] RR-8740, Inria. 2016. ⟨hal-01163369v3⟩

Share

Metrics

Record views

353

Files downloads

269