Some Contributions to Audio Source Separation and Diarisation of Multichannel Convolutive Mixtures

Dionyssos Kounades-Bastian 1
1 PERCEPTION - Interpretation and Modelling of Images and Videos
Inria Grenoble - Rhône-Alpes, LJK - Laboratoire Jean Kuntzmann, INPG - Institut National Polytechnique de Grenoble
Résumé : Dans cette thèse nous abordons le problème de la séparation de sources audio dans des mélanges convolutifs multicanaux et sous-déterminés, en utilisant une modélisation probabiliste. Nous nous concentrons sur trois aspects, et nous apportons trois contributions. D’abord, nous nous inspirons du modèle Gaussien local par factorisation en matrices non-négatives (LGM-with-NMF), qui est un modèle empiriquement validé pour représenter un signal audio. Nous proposons une extension Bayésienne de ce modèle, qui permet de sur- passer certaines limitations du modèle NMF. Nous incorporons cette représentation dans un cadre de separation audio multicanaux, et le comparons avec l’état de l’art sur des tâches de séparation. Nous obtenons des résultats prometteurs. Deuxièment, nous étudions comment séparer des mélanges audio de sources et/ou des capteurs en mouvement. Ces déplacements rendent le chemin acoustique entre les sources et les microphones variant en cours du temps. L’adressage des mélanges convolutifs variant au cours du temps est peu exploré dans la littérature. Ainsi, nous partons d’une méthode de l’état de l’art développée pour la séparation de mélanges invariant (sources et microphones statiques) et utilisant LGM-with-NMF. Nous proposons à ceci une extension qui utilise un filtre de Kalman pour suivre le chemin acoustique au cours du temps. La technique proposée est comparée à une adaptation block-par-block d’une technique de l’état de l’art appliquée sur des intervalles de temps, et a donné des résultats exceptionels sur les mélanges simulés et les mélanges du monde réel. Enfin, nous investiguons les similitudes entre la séparation et la journalisation audio. La journalisation est le problème de détection des intervalles auxquels chaque locuteur/source est émettant. La plupart des méthodes de séparation supposent toutes les sources émettent continuellement. Cette hypothèe peut donner lieu à de fausses estimations durant les intervalles au cours desquels cette source n’a pas émis. Notre objectif est que la journalisation puisse aider à résoudre la séparation, en indiquant les sources qui émettent à chaque intervalle de temps. Dans cette mesure, nous concevons une cadre commun pour traiter simultanément la journalisation et la séparation du mélange audio. Ce cadre incorpore un modèle de Markov caché pour suivre les activités des sources au sein d’une technique de séparation LGM-with-NMF. Nous comparons l’algorithme proposé à l’état de l’art sur des tâches de séparation et de journalisation. Nous obtenons des performances comparables avec l’état de l’art pour la séparation, et supériures pour la journalisation.
Type de document :
Thèse
Signal and Image Processing. Université Grenoble - Alpes, 2017. English
Liste complète des métadonnées

Littérature citée [49 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/tel-01543101
Contributeur : Team Perception <>
Soumis le : mardi 20 juin 2017 - 14:55:18
Dernière modification le : mercredi 11 avril 2018 - 01:58:34
Document(s) archivé(s) le : vendredi 15 décembre 2017 - 20:25:50

Fichier

Identifiants

  • HAL Id : tel-01543101, version 1

Collections

Citation

Dionyssos Kounades-Bastian. Some Contributions to Audio Source Separation and Diarisation of Multichannel Convolutive Mixtures. Signal and Image Processing. Université Grenoble - Alpes, 2017. English. 〈tel-01543101〉

Partager

Métriques

Consultations de la notice

313

Téléchargements de fichiers

228