Skip to Main content Skip to Navigation
Theses

Audio-Visual Multiple-Speaker Tracking for Robot Perception

Yutong Ban 1
1 PERCEPTION - Interpretation and Modelling of Images and Videos
Grenoble INP [2007-2019] - Institut polytechnique de Grenoble - Grenoble Institute of Technology [2007-2019], LJK - Laboratoire Jean Kuntzmann, Inria Grenoble - Rhône-Alpes
Résumé : La perception des robots joue un rôle crucial dans l’interaction homme-robot (HRI). Le système de perception fournit les informations au robot sur l’environnement, ce qui permet au robot de réagir en conséquence. Dans un scénario de conversation, un groupe de personnes peut discuter devant le robot et se déplacer librement. Dans de telles situations, les robots sont censés comprendre où sont les gens, ceux qui parlent et de quoi ils parlent. Cette thèse se concentre sur les deux premières questions, à savoir le suivi et la diarisation des locuteurs. Nous utilisons différentes modalités du système de perception du robot pour remplir cet objectif. Comme pour l’humain, l’ouïe et la vue sont essentielles pour un robot dans un scénario de conversation. Les progrès de la vision par ordinateur et du traitement audio de la dernière décennie ont révolutionné les capacités de perception des robots. Dans cette thèse, nous développons les contributions suivantes : nous développons d’abord un cadre variationnel bayésien pour suivre plusieurs objets. Le cadre bayésien variationnel fournit des solutions explicites, rendant le processus de suivi très efficace. Cette approche est d’abord appliqué au suivi visuel de plusieurs personnes. Les processus de créations et de destructions sont en adéquation avec le modèle probabiliste proposé pour traiter un nombre variable de personnes. De plus, nous exploitons la complémentarité de la vision et des informations du moteur du robot : d’une part, le mouvement actif du robot peut être intégré au système de suivi visuel pour le stabiliser ; d’autre part, les informations visuelles peuvent être utilisées pour effectuer l’asservissement du moteur. Par la suite, les informations audio et visuelles sont combinées dans le modèle variationnel, pour lisser les trajectoires et déduire le statut acoustique d’une personne: parlant ou silencieux. Pour expérimenter un scenario où l’information visuelle est absente, nous essayons le modèle pour la localisation et le suivi des locuteurs basé sur l’information acoustique uniquement. Les techniques de déréverbération sont d’abord appliquées, dont le résultat est fourni au système de suivi. Enfin, une variante du modèle de suivi des locuteurs basée sur la distribution de von-Mises est proposée, celle-ci étant plus adaptée aux données directionnelles. Toutes les méthodes proposées sont validées sur des bases de données spécifiques à chaque application.
Complete list of metadatas

Cited literature [181 references]  Display  Hide  Download

https://hal.inria.fr/tel-02163418
Contributor : Team Perception <>
Submitted on : Thursday, July 4, 2019 - 2:53:51 PM
Last modification on : Thursday, July 9, 2020 - 9:44:39 AM

File

Thesis_Ban.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : tel-02163418, version 2

Citation

Yutong Ban. Audio-Visual Multiple-Speaker Tracking for Robot Perception. Computer Vision and Pattern Recognition [cs.CV]. Université Grenoble - Alpes, 2019. English. ⟨tel-02163418v2⟩

Share

Metrics

Record views

130

Files downloads

439