D. Kounades-bastian, L. Girin, X. Alameda-pineda, S. Gannot, and R. Horaud, A Variational EM Algorithm for the Separation of Time-Varying Convolutive Audio Mixtures, IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol.24, issue.8, pp.1408-1423, 2016.
DOI : 10.1109/TASLP.2016.2554286
URL : https://hal.archives-ouvertes.fr/hal-01301762

S. Gannot, E. Vincent, S. Markovich-golan, and A. Ozerov, A Consolidated Perspective on Multimicrophone Speech Enhancement and Source Separation, IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol.25, issue.4, pp.692-730, 2017.
DOI : 10.1109/TASLP.2016.2647702
URL : https://hal.archives-ouvertes.fr/hal-01414179

M. Barnard, W. Wang, A. Hilton, and J. Kittler, Mean-shift and sparse samplingbased SMC-PHD filtering for audio informed visual speaker tracking, IEEE Transactions on Multimedia, vol.18, issue.12 1, pp.2417-2431, 2016.

Y. Liu, W. Wang, J. Chambers, V. Kilic, and A. Hilton, Particle Flow SMC-PHD Filter for Audio-Visual Multi-speaker Tracking, International Conference on Latent Variable Analysis and Signal Separation, pp.344-353, 2017.
DOI : 10.1109/LSP.2005.849546

V. K?l?ç, M. Barnard, W. Wang, and J. Kittler, Audio Assisted Robust Visual Tracking With Adaptive Particle Filtering, IEEE Transactions on Multimedia, vol.17, issue.2, pp.186-200, 2015.
DOI : 10.1109/TMM.2014.2377515

D. Gatica-perez, G. Lathoud, J. Odobez, and I. Mc-cowan, Audiovisual Probabilistic Tracking of Multiple Speakers in Meetings, IEEE Transactions on Audio, Speech and Language Processing, vol.15, issue.2, pp.601-616, 2007.
DOI : 10.1109/TASL.2006.881678

X. Qian and A. Brutti, Maurizio Omologo, and Andrea Cavallaro. 3d audio-visual speaker tracking with an adaptive particle filter, IEEE International Conference on Acoustics, Speech and Signal Processing, pp.2896-2900, 2017.

S. Mohsen-naqvi, S. Wang, . Khan, J. Barnard, and . Chambers, Multimodal (audio???visual) source separation exploiting multi-speaker tracking, robust beamforming and time???frequency masking, IET Signal Processing, vol.6, issue.5, pp.466-477, 2012.
DOI : 10.1049/iet-spr.2011.0124

N. Schult, T. Reineking, T. Kluss, and C. Zetzsche, Information-Driven Active Audio-Visual Source Localization, PLOS ONE, vol.106, issue.3, p.2015
DOI : 10.1371/journal.pone.0137057.g011
URL : http://doi.org/10.1371/journal.pone.0137057

X. Alameda-pineda and R. Horaud, Vision-guided robot hearing, The International Journal of Robotics Research, vol.5, issue.1, pp.437-456, 2002.
DOI : 10.1080/01691864.2012.687152
URL : https://hal.archives-ouvertes.fr/hal-00990766

I. D. Gebru, X. Alameda-pineda, F. Forbes, and R. Horaud, EM Algorithms for Weighted-Data Clustering with Application to Audio-Visual Scene Analysis, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol.38, issue.12, 2016.
DOI : 10.1109/TPAMI.2016.2522425
URL : https://hal.archives-ouvertes.fr/hal-01261374

T. Gehrig, K. Nickel, U. Ekenel, J. Klee, and . Mcdonough, Kalman filters for audio-video source localization, IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2005., pp.118-121, 2005.
DOI : 10.1109/ASPAA.2005.1540183
URL : http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.324.9761

D. Eleonora, . Arca, M. Neil, J. Robertson, and . Hopgood, Person tracking via audio and video fusion, The Ninth IET Data Fusion and Target Tracking Conference: Algorithms and Applications, 2012.

A. Deleforge, F. Forbes, and R. Horaud, High-dimensional regression with gaussian mixtures and partially-latent response variables, Statistics and Computing, vol.19, issue.11, pp.893-911, 2015.
DOI : 10.1109/TNN.2008.2003467
URL : https://hal.archives-ouvertes.fr/hal-01107604

A. Deleforge, R. Horaud, Y. Y. Schechner, and L. Girin, Co-Localization of Audio Sources in Images Using Binaural Features and Locally-Linear Regression, IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol.23, issue.4, pp.718-731, 2015.
DOI : 10.1109/TASLP.2015.2405475
URL : https://hal.archives-ouvertes.fr/hal-01112834

C. Bishop, Pattern Recognition and Machine Learning, 2006.

V. Smidl and A. Quinn, The Variational Bayes Method in Signal Processing, 2006.

Y. Ban, S. Ba, X. Alameda-pineda, and R. Horaud, Tracking Multiple Persons Based on a Variational Bayesian Model, European Conference on Computer Vision, pp.52-67, 2016.
DOI : 10.1007/978-3-540-69568-4_1
URL : https://hal.archives-ouvertes.fr/hal-01359559

I. D. Gebru, X. Siì-eye-ba, R. Li, and . Horaud, Audio-Visual Speaker Diarization Based on Spatiotemporal Bayesian Fusion, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol.39, issue.5, 2017.
DOI : 10.1109/TPAMI.2017.2648793
URL : https://hal.archives-ouvertes.fr/hal-01413403

J. Ramirez, C. José, C. Segura, A. D. Benitez, L. Torre et al., Efficient voice activity detection algorithms using long-term speech information, Speech Communication, vol.42, issue.3-4, pp.271-287, 2004.
DOI : 10.1016/j.specom.2003.10.002

Z. Cao, T. Simon, S. Wei, and Y. Sheikh, Realtime multi-person 2D pose estimation using part affinity fields, 2016.