Utilisation de relations sémantiques pour améliorer la segmentation thématique de documents télévisuels

Camille Guinaudeau 1 Guillaume Gravier 2 Pascale Sébillot 1
1 TEXMEX - Multimedia content-based indexing
IRISA - Institut de Recherche en Informatique et Systèmes Aléatoires, Inria Rennes – Bretagne Atlantique
2 METISS - Speech and sound data modeling and processing
IRISA - Institut de Recherche en Informatique et Systèmes Aléatoires, Inria Rennes – Bretagne Atlantique
Résumé : Les méthodes de segmentation thématique exploitant une mesure de la cohésion lexicale peuvent être appliquées telles quelles à des transcriptions automatiques de programmes télévisuels. Cependant, elles sont moins efficaces dans ce contexte, ne prenant en compte ni les particularités des émissions TV, ni celles des transcriptions. Nous étudions ici l'apport de relations sémantiques pour rendre les techniques de segmentation thématique plus robustes. Nous proposons une méthode pour exploiter ces relations dans une mesure de la cohésion lexicale et montrons qu'elles permettent d'augmenter la F1- mesure de +1.97 et +11.83 sur deux corpus composés respectivement de 40h de journaux télévisés et de 40h d'émissions de reportage. Ces améliorations démontrent que les relations sémantiques peuvent rendre les méthodes de segmentation moins sensibles aux erreurs de transcription et au manque de répétitions constaté dans certaines émissions télévisées.
Type de document :
Communication dans un congrès
Traitement automatique des langues naturelles, TALN 2010, Jul 2010, Montréal, Canada. 2010
Liste complète des métadonnées

https://hal.inria.fr/inria-00533389
Contributeur : Patrick Gros <>
Soumis le : vendredi 5 novembre 2010 - 22:31:01
Dernière modification le : lundi 15 octobre 2018 - 13:40:28
Document(s) archivé(s) le : vendredi 26 octobre 2012 - 15:03:03

Fichier

guinaudeau_taln2010.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : inria-00533389, version 1

Citation

Camille Guinaudeau, Guillaume Gravier, Pascale Sébillot. Utilisation de relations sémantiques pour améliorer la segmentation thématique de documents télévisuels. Traitement automatique des langues naturelles, TALN 2010, Jul 2010, Montréal, Canada. 2010. 〈inria-00533389〉

Partager

Métriques

Consultations de la notice

459

Téléchargements de fichiers

243