Annotation de vidéos par paires rares de concepts

Résumé : La détection d'un concept visuel dans les vidéos est une tâche difficile, spécialement pour les concepts rares ou pour ceux dont il est compliqué de décrire visuellement. Cette question devient encore plus difficile quand on veut détecter une paire de concepts au lieu d'un seul. En effet, plus le nombre de concepts présents dans une scène vidéo est grand, plus cette dernière est complexe visuellement, et donc la difficulté de lui trouver une description spécifique s'accroit encore plus. Deux directions principales peuvent eˆtre suivies pour tacler ce problème: 1) détecter chaque concept séparément et combiner ensuite les prédictions de leurs détecteurs correspondants d'une manière similaire à celle utilisée souvent en recherche d'information, ou 2) considérer le couple comme un nouveau concept et générer un classifieur supervisé pour ce nouveau concept en inférant de nouvelles annotations à partir de celles des deux concepts formant la paire. Chacune de ces approches a ses avantages et ses inconvénients. Le problème majeur de la deuxième méthode est la nécessité d'un ensemble de données annotées, surtout pour la classe positive. S'il y a des concepts rares, cette rareté s'accroit encore plus pour les paires formées de leurs combinaisons. D'une autre part, il peut y avoir deux concepts assez fréquents mais il est très rare qu'ils occurrent conjointement dans un meˆme document. Certains travaux de l'état de l'art ont proposé de palier ce problème en récoltant des exemples représentatifs des classes étudiées du web, mais cette tâche reste couˆteuse en temps et argent. Nous avons comparé les deux types d'approches sans recourir à des ressources externes. Notre évaluation a été réalisée dans le cadre de la sous-tâche "détection de paire de concepts" de la tâche d'indexation sémantique (SIN) de TRECVID 2013, et les résultats ont révélé que pour le cas des vidéos, si on n'utilise pas de ressources d'information externes, les approches qui fusionnent les résultats des deux détecteurs sont plus performantes, contrairement à ce qui a été montré dans des travaux antérieurs pour le cas des images fixes. La performance des méthodes décrites dépasse celle du meilleur résultat officiel de la campagne d'évaluation précédemment citée, de 9% en termes de gain relatif sur la précision moyenne (MAP).
Type de document :
Communication dans un congrès
CORIA, 2014, Nancy, France
Liste complète des métadonnées

Littérature citée [19 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/hal-00953140
Contributeur : Marie-Christine Fauvet <>
Soumis le : mercredi 23 avril 2014 - 10:15:50
Dernière modification le : jeudi 11 janvier 2018 - 06:21:05
Document(s) archivé(s) le : mercredi 23 juillet 2014 - 10:45:18

Fichier

coria2014_2.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-00953140, version 1

Collections

Citation

Abdelkader Hamadi, Philippe Mulhem, Georges Quénot. Annotation de vidéos par paires rares de concepts. CORIA, 2014, Nancy, France. 〈hal-00953140〉

Partager

Métriques

Consultations de la notice

208

Téléchargements de fichiers

59