Reconnaissance robuste d'entités nommées sur de la parole transcrite automatiquement

Christian Raymond 1, * Julien Fayolle 1
* Auteur correspondant
1 TEXMEX - Multimedia content-based indexing
IRISA - Institut de Recherche en Informatique et Systèmes Aléatoires, Inria Rennes – Bretagne Atlantique
Résumé : Les transcriptions automatiques de parole constituent une ressource importante, mais souvent bruitée, pour décrire des documents multimédia contenant de la parole (e.g. journaux télévisés). En vue d'améliorer la recherche documentaire, une étape d'extraction d'information à caractère sémantique, précédant l'indexation, permet de faire face au problème des transcriptions imparfaites. Parmis ces contenus informatifs, on compte les entités nommées (e.g. noms de personnes) dont l'extraction est l'objet de ce travail. Les méthodes traditionnelles de reconnaissance basées sur une définition manuelle de grammaires formelles donnent de bons résultats sur du texte ou des transcriptions propres manuellement produites, mais leurs performances se trouvent fortement affectées lorsqu'elles sont appliquées sur des transcriptions automatiques. Nous présentons, ici, trois méthodes pour la reconnaissance d'entités nommées basées sur des algorithmes d'apprentissage automatique : les champs conditionnels aléatoires, les machines à de support, et les transducteurs à états finis. Nous présentons également une méthode pour rendre consistantes les données d'entrainement lorsqu'elles sont annotées suivant des conventions légèrement différentes. Les résultats montrent que les systèmes d'étiquetage obtenus sont parmi les plus robustes sur les données d'évaluation de la campagne ESTER 2 dans les conditions où la transcription automatique est particulièrement bruitée.
Type de document :
Communication dans un congrès
Conférence Traitement automatique des langues naturelles, TALN'10, Jul 2010, Montréal, Québec, Canada. 2010, 〈http://www.iro.umontreal.ca/~felipe/TALN2010/Xml/Papers/all/taln2010_submission_68.pdf〉
Liste complète des métadonnées

https://hal.inria.fr/inria-00561732
Contributeur : Patrick Gros <>
Soumis le : mardi 1 février 2011 - 17:11:05
Dernière modification le : vendredi 13 janvier 2017 - 14:20:55
Document(s) archivé(s) le : lundi 2 mai 2011 - 04:20:41

Fichier

raymond10a.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : inria-00561732, version 1

Citation

Christian Raymond, Julien Fayolle. Reconnaissance robuste d'entités nommées sur de la parole transcrite automatiquement. Conférence Traitement automatique des langues naturelles, TALN'10, Jul 2010, Montréal, Québec, Canada. 2010, 〈http://www.iro.umontreal.ca/~felipe/TALN2010/Xml/Papers/all/taln2010_submission_68.pdf〉. 〈inria-00561732〉

Partager

Métriques

Consultations de
la notice

550

Téléchargements du document

416