Utilisation de relations sémantiques pour améliorer la segmentation thématique de documents télévisuels - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Communication Dans Un Congrès Année : 2010

Utilisation de relations sémantiques pour améliorer la segmentation thématique de documents télévisuels

Camille Guinaudeau
Guillaume Gravier
Pascale Sébillot

Résumé

Topic segmentation methods based on a measure of the lexical cohesion can be applied as is to automatic transcripts of TV programs. However, these methods are less effective in this context as neither the specificities of TV contents, nor those of automatic transcripts are considered. The aim of this paper is to study the use of semantic relations to make segmentation techniques more robust.We propose a method to account for semantic relations in a measure of the lexical cohesion.We show that such relations increase the F1-measure by +1.97 and +11.83 for two data sets consisting of respectively 40h of news and 40h of longer reports on current affairs. These results demonstrate that semantic relations can make segmentation methods less sensitive to transcription errors or to the lack of repetitions in some television programs.
Les méthodes de segmentation thématique exploitant une mesure de la cohésion lexicale peuvent être appliquées telles quelles à des transcriptions automatiques de programmes télévisuels. Cependant, elles sont moins efficaces dans ce contexte, ne prenant en compte ni les particularités des émissions TV, ni celles des transcriptions. Nous étudions ici l'apport de relations sémantiques pour rendre les techniques de segmentation thématique plus robustes. Nous proposons une méthode pour exploiter ces relations dans une mesure de la cohésion lexicale et montrons qu'elles permettent d'augmenter la F1- mesure de +1.97 et +11.83 sur deux corpus composés respectivement de 40h de journaux télévisés et de 40h d'émissions de reportage. Ces améliorations démontrent que les relations sémantiques peuvent rendre les méthodes de segmentation moins sensibles aux erreurs de transcription et au manque de répétitions constaté dans certaines émissions télévisées.
Fichier principal
Vignette du fichier
guinaudeau_taln2010.pdf (140.67 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

inria-00533389 , version 1 (05-11-2010)

Identifiants

  • HAL Id : inria-00533389 , version 1

Citer

Camille Guinaudeau, Guillaume Gravier, Pascale Sébillot. Utilisation de relations sémantiques pour améliorer la segmentation thématique de documents télévisuels. Traitement automatique des langues naturelles, TALN 2010, Jul 2010, Montréal, Canada. ⟨inria-00533389⟩
223 Consultations
249 Téléchargements

Partager

Gmail Facebook X LinkedIn More