Reconnaissance robuste d'entités nommées sur de la parole transcrite automatiquement

Christian Raymond; Julien Fayolle

Communication Dans Un Congrès Année : 2010

Reconnaissance robuste d'entités nommées sur de la parole transcrite automatiquement

(1) , (1)

Christian Raymond

Fonction : Auteur correspondant
PersonId : 1778
IdHAL : christian-raymond
IdRef : 099236486

Connectez-vous pour contacter l'auteur

Multimedia content-based indexing

Julien Fayolle

Fonction : Auteur
PersonId : 889119

Multimedia content-based indexing

Résumé

Les transcriptions automatiques de parole constituent une ressource importante, mais souvent bruitée, pour décrire des documents multimédia contenant de la parole (e.g. journaux télévisés). En vue d'améliorer la recherche documentaire, une étape d'extraction d'information à caractère sémantique, précédant l'indexation, permet de faire face au problème des transcriptions imparfaites. Parmis ces contenus informatifs, on compte les entités nommées (e.g. noms de personnes) dont l'extraction est l'objet de ce travail. Les méthodes traditionnelles de reconnaissance basées sur une définition manuelle de grammaires formelles donnent de bons résultats sur du texte ou des transcriptions propres manuellement produites, mais leurs performances se trouvent fortement affectées lorsqu'elles sont appliquées sur des transcriptions automatiques. Nous présentons, ici, trois méthodes pour la reconnaissance d'entités nommées basées sur des algorithmes d'apprentissage automatique : les champs conditionnels aléatoires, les machines à de support, et les transducteurs à états finis. Nous présentons également une méthode pour rendre consistantes les données d'entrainement lorsqu'elles sont annotées suivant des conventions légèrement différentes. Les résultats montrent que les systèmes d'étiquetage obtenus sont parmi les plus robustes sur les données d'évaluation de la campagne ESTER 2 dans les conditions où la transcription automatique est particulièrement bruitée.

Domaines

Traitement du texte et du document

Fichier principal

raymond10a.pdf (268.39 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Patrick Gros : Connectez-vous pour contacter le contributeur

https://inria.hal.science/inria-00561732

Soumis le : mardi 1 février 2011-17:11:05

Dernière modification le : vendredi 24 mars 2023-14:52:54

Archivage à long terme le : lundi 2 mai 2011-04:20:41

Dates et versions

inria-00561732 , version 1 (01-02-2011)

Identifiants

HAL Id : inria-00561732 , version 1

Citer

Christian Raymond, Julien Fayolle. Reconnaissance robuste d'entités nommées sur de la parole transcrite automatiquement. Conférence Traitement automatique des langues naturelles, TALN'10, ATALA, Jul 2010, Montréal, Québec, Canada. ⟨inria-00561732⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

EC-PARIS UNIV-RENNES1 CNRS INRIA INSA-RENNES IRISA IRISA-INSA-R IRISA-D6 INRIA2 UR1-MATH-STIC UR1-UFR-ISTIC UNIV-RENNES INSA-GROUPE UR1-MATH-NUM

629 Consultations

792 Téléchargements

Reconnaissance robuste d'entités nommées sur de la parole transcrite automatiquement

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager