Apports des analyses syntaxiques pour la détection automatique de mentions dans un corpus de français oral - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Communication Dans Un Congrès Année : 2017

Experiences in using deep and shallow parsing to detect entity mentions in oral French

Apports des analyses syntaxiques pour la détection automatique de mentions dans un corpus de français oral

Résumé

We present three experiments in detecting entity mentions in the corpus of oral French ANCOR, using publicly available parsing tools and state-of-the-art mention detection techniques used in coreference detection, anaphora resolution and Entity Detection and Tracking systems. While the tools we use are not specifically designed to deal with oral French, our results are comparable to those of state-of-the-art end-to-end systems for other languages. We also mention several ways to improve our results for future work in developing an end-to-end coreference resolution system for French, to which these experiments could be a baseline for mention detection.
Cet article présente trois expériences de détection de mentions dans un corpus de français oral : ANCOR. Ces expériences utilisent des outils préexistants d'analyse syntaxique du français et des méthodes issues de travaux sur la coréférence, les anaphores et la détection d'entités nommées. Bien que ces outils ne soient pas optimisés pour le traitement de l'oral, la qualité de la détection des mentions que nous obtenons est comparable à l'état de l'art des systèmes conçus pour l'écrit dans d'autres langues. Nous concluons en proposant des perspectives pour l'amélioration des résultats que nous obtenons et la construction d'un système end-to-end pour lequel nos expériences peuvent servir de base de travail.
Fichier principal
Vignette du fichier
taln2017.pdf (78.6 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-01558711 , version 1 (09-07-2017)

Licence

Paternité

Identifiants

  • HAL Id : hal-01558711 , version 1

Citer

Loïc Grobol, Isabelle Tellier, Éric Villemonte de La Clergerie, Marco Dinarelli, Frédéric Landragin. Apports des analyses syntaxiques pour la détection automatique de mentions dans un corpus de français oral. TALN 2017, Association pour le Traitement Automatique des Langues (ATALA), Jun 2017, Orléans, France. ⟨hal-01558711⟩
207 Consultations
304 Téléchargements

Partager

Gmail Facebook X LinkedIn More