Indices utiles à la cohésion lexicale pour la segmentation thématique de documents oraux

Camille Guinaudeau 1 Guillaume Gravier 2, * Pascale Sébillot 1
* Auteur correspondant
1 TEXMEX - Multimedia content-based indexing
IRISA - Institut de Recherche en Informatique et Systèmes Aléatoires, Inria Rennes – Bretagne Atlantique
2 METISS - Speech and sound data modeling and processing
IRISA - Institut de Recherche en Informatique et Systèmes Aléatoires, Inria Rennes – Bretagne Atlantique
Résumé : L'augmentation du nombre de documents télévisuels disponibles rend indispensable la mise en place de méthodes de structuration de ces flux, structuration nécessitant une phase préalable de segmentation thématique des émissions. Le but de cet article est de déterminer dans quelle mesure des mesures de confiance et des relations sémantiques peuvent compenser des erreurs de transcription automatique pour cette tâche de segmentation. À cette fin, nous introduisons les mesures de confiance et les relations sémantiques dans un algorithme de segmentation thématique et nous montrons que la valeur de la F1-mesure est améliorée de +1,5 et +1,9 lors de l'intégration des mesures de confiance et des relations sémantiques, respectivement. Cette amélioration démontre que de simples indices peuvent contrebalancer les erreurs de transcriptions et améliorer les performances de notre méthode de segmentation thématique.
Type de document :
Communication dans un congrès
XXVIIIe journées d'études de la parole, May 2010, Mons, Belgique. 2010
Liste complète des métadonnées

Littérature citée [7 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/inria-00533388
Contributeur : Patrick Gros <>
Soumis le : vendredi 5 novembre 2010 - 22:18:01
Dernière modification le : jeudi 12 juillet 2018 - 12:32:08
Document(s) archivé(s) le : vendredi 26 octobre 2012 - 15:02:57

Fichier

guinaudeau_jep2010.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : inria-00533388, version 1

Citation

Camille Guinaudeau, Guillaume Gravier, Pascale Sébillot. Indices utiles à la cohésion lexicale pour la segmentation thématique de documents oraux. XXVIIIe journées d'études de la parole, May 2010, Mons, Belgique. 2010. 〈inria-00533388〉

Partager

Métriques

Consultations de la notice

339

Téléchargements de fichiers

180