YOLO-Based Panoptic Segmentation - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Mémoires D'étudiants -- Hal-Inria+ Année : 2020

YOLO-Based Panoptic Segmentation

Segmentación Panóptica basada en YOLO

Segmentation Panoptique basé sur YOLO

Résumé

Given the recent challenge of Panoptic Segmentation, where every pixel in an image must be given a label, as in semantic segmentation, and an instance id, a new YOLO-based architecture is proposed here for this computer vision task. This network uses the YOLOv3 architecture, plus parallel semantic and instance segmentation heads to perform full scene parsing. A set of solutions for each of these two segmentation tasks are proposed and evaluated, where a Pyramid Pooling Module is found to be the best semantic feature extractor given a set of feature maps from the Darknet-53 backbone network. The network gives good segmentation results for both stuff and thing classes by training with a frozen backbone, where boundaries between background classes are consistent with the ground truth and the instance masks match closely the true shapes of the objects present in a scene.
Compte tenu du défi récent de la segmentation panoptique, où chaque pixel d’une image doit recevoir une étiquette, comme dans la segmentation sémantique,et un identifiant d’instance, une nouvelle architecture basée sur YOLO est proposée ici pour cette tâche de vision par ordinateur. Ce réseau utilise l’architectureYOLOv3, ainsi que des têtes de segmentation sémantique et d’instance parallèles pour effectuer une analyse complète de la scène. Un ensemble de solutions pour chacune de ces deux tâches de segmentation est proposé et évalué, où un Pyramid Pooling Module se révèle être le meilleur extracteur de caractéristiques sémantiques compte tenu d’un ensemble de caractéristiques du réseau de base Darknet-53. Le réseau donne de bons résultats de segmentation pour les classes de choses et d’objets en s’entraînant avec une backbone figée, où les frontières entre les classes d’arrière-plan sont cohérentes avec la ground-truth et les masques d’instance correspondent étroitement aux vraies formes des objets présents dans une scène.
Fichier principal
Vignette du fichier
MSc_Thesis_HAL_v2.pdf (14.51 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-02884735 , version 1 (30-06-2020)
hal-02884735 , version 2 (09-02-2021)

Identifiants

  • HAL Id : hal-02884735 , version 2

Citer

Manuel Alejandro Diaz-Zapata. YOLO-Based Panoptic Segmentation. Computer Vision and Pattern Recognition [cs.CV]. 2020. ⟨hal-02884735v2⟩
402 Consultations
898 Téléchargements

Partager

Gmail Facebook X LinkedIn More