Multi-source TDOA estimation in reverberant audio using angular spectra and clustering

Charles Blandin 1 Alexey Ozerov 1 Emmanuel Vincent 1
1 METISS - Speech and sound data modeling and processing
IRISA - Institut de Recherche en Informatique et Systèmes Aléatoires, Inria Rennes – Bretagne Atlantique
Résumé : Dans cet article, nous considérons le problème d'estimation des différences de temps d'arrivée (TDOAs) de plusieurs sources sonores dans un enregistrement stéréophonique en environnement réverbérant. Ce problème est communément traité par des méthodes de type clustering ou spectre angulaire. Ces méthodes sont limitées par le fait qu'elle affectent typiquement le même poids à l'information spatiale issue de tous les points temps-fréquence et qu'elles se basent sur un modèle binaire d'activation des sources. De plus, peu de comparaisons expérimentales ont été effectuées jusqu'à présent. Premièrement, nous proposons une procédure de pondération temps-fréquence basée sur une forme de rapport signal-à-bruit (RSB) dont l'efficacité a été montrée pour des mélanges instantanés. Deuxièmement, nous introduisons de nouveaux algorithmes de clustering basés sur l'hypothèse que toutes les sources peuvent être actives en chaque point temps-fréquence. Nous étudions également une procédure en deux étapes combinant le spectre angulaire et le clustering et nous menons une évaluation expérimentale à grande échelle des méthodes proposées et existantes. En moyenne, les meilleures performances de localisation ont été obtenues par une version de GCC-PHAT (Generalized Cross Correlation with Phase Transform) sans avoir recours au clustering. De plus, une des méthodes basées sur le RSB que nous proposons se révèle plus performante que cette dernière lorsque la distance entre les microphones est petite.
Type de document :
Rapport
[Research Report] RR-7566, 2011, pp.22
Liste complète des métadonnées

https://hal.inria.fr/inria-00576297
Contributeur : Alexey Ozerov <>
Soumis le : mardi 11 octobre 2011 - 14:34:40
Dernière modification le : jeudi 11 janvier 2018 - 06:20:09
Document(s) archivé(s) le : jeudi 12 janvier 2012 - 02:31:07

Fichier

RR-7566.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : inria-00576297, version 3

Collections

Citation

Charles Blandin, Alexey Ozerov, Emmanuel Vincent. Multi-source TDOA estimation in reverberant audio using angular spectra and clustering. [Research Report] RR-7566, 2011, pp.22. 〈inria-00576297v3〉

Partager

Métriques

Consultations de la notice

548

Téléchargements de fichiers

160