Estimating 3D Motion and Forces from Monocular Videos

Zongmian Li

Résumé

In this thesis, we investigate the problem of automatically reconstructing the 3D dynamic scene depicting a person interacting with a tool in a single RGB video. The objective is to obtain a 3D interpretation of the scene represented by the 3D poses of the person and the manipulated object over time, the contact positions and the contact forces exerted on the human body. This problem is challenging because of occlusions, depth ambiguities and the thin, texture-less nature of the manipulated tools such as the spade or the hammer. The main contributions of this thesis are as follows. First, we introduce an approach to jointly estimate the motion and the actuation forces of the person on the manipulated object by modeling the contacts and the dynamics of the interactions. This is cast as a large-scale trajectory optimization problem by minimizing a set of loss functions integrated over time and summed over person joints and object keypoints. The problem is subject to several constraints based on the laws of physics, which include contact and friction models and the Lagrangian dynamics equation. Second, we develop a method to automatically recognize from the input video the 2D position and timing of contacts between the person and the object or the ground. Instead of modeling contact states as binary variables during optimization, we automatically recognize contacts in the input video using a convolutional neural network (CNN) trained from manually annotated contact data that combine both still images and videos harvested from the Internet, thereby significantly reducing the complexity of the optimization. Third, we validate our approach on a recent video-MoCap dataset capturing typical parkour actions and equipped with ground truth forces and trajectories. We also demonstrate the benefits of our approach on a new dataset of Internet videos showing people manipulating a variety of tools in unconstrained environments. The experiments show that our method improves results on both 3D human pose estimation and 2D object localization, and achieves reasonable force estimates on this data.

Dans cette thèse, nous étudions le problème de la reconstruction automatique en 3D des mouvements d’une personne agissant dans une scène complexe avec un objet, à partir d’une seule vidéo RVB. Nous développons une méthode complète pour établir une correspondance entre les images vidéo 2D et une interprétation 3D de la scène, qui est représentée par les poses 3D de la personne et de l’objet manipulé, les positions des contacts avec l’objet et avec l’environnement, et les forces de contact exercées à ces interfaces. Ce problème est difficile pour de multiples raisons, en particulier, des occlusions, des ambiguïtés de profondeur et des propriétés d’apparence des objets longiligne sans texture tels que la bêche ou le marteau. Les principales contributions de cette thèse sont les suivantes. Dans un premier temps, nous introduisons une approche pour estimer conjointement le mouvement et les forces impliqués dans la vidéo en formulant un problème d’optimisation avec contrainte de trajectoire minimisant une fonction de perte, composite, intégrée dans le temps. Les variables de décision de ce problème sont les trajectoires de la personne et de l’outil qu’il manipule, ainsi que les forces d’interaction entre la personne, l’outil et l’environnement. Les variables permettent une modélisation physique de la scène, du mouvement des corps sans l’action des faces aux points de contact. Les fonctions de perte portent sur les articulations de la personne et les points clé de l’objet en cherchant à minimiser la vraisemblance des observations dans l’image. Le problème est soumis à plusieurs contraintes exprimant les lois de la mécanique, qui incluent les modèles de contact et de frottement et l’équation dynamique lagrangienne. Deuxièmement, nous développons une méthode pour reconnaître automatiquement à partir de la vidéo d’entrée la position 2D et les instants de contact entre la personne et l’objet ou le sol. Pour ce faire, nous proposons de reconnaître automatiquement les contacts dans la vidéo d’entrée à l’aide d’un réseau neuronal convolutif (en anglais CNN) entraîné à partir de données de contact annotées manuellement qui combinent à la fois des images fixes et des vidéos récoltées sur Internet. Ainsi, au lieu de modéliser les états de contact en tant que variables binaires lors de l’optimisation, nous conservons un problème d’optimisation de trajectoire sans variable mixte binaire, d’une complexité algorithmique acceptable, tant en permettant à la reconstruction de s’adapter à des changements de contact complexes sans connaissance préalable. Troisièmement, nous validons expérimentalement notre approche sur un jeu de données vidéo-MoCap récent capturant des actions typiques de parkour et équipé de forces et de trajectoires de vérité au sol. Nous démontrons également les avantages de notre approche sur un nouvel ensemble de données de vidéos Internet montrant des personnes manipulant une variété d’outils dans des environnements sans contraintes. Les expériences montrent que notre méthode améliore les résultats à la fois sur l’estimation de la pose humaine 3D et la localisation de l’objet 2D, et réalise des estimations de force raisonnables sur ces données.

Estimating 3D Motion and Forces from Monocular Videos

Estimation du mouvement et des forces 3D à partir de vidéos monoculaires

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager