La saillance référentielle pour la détection des thèmes - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Chapitre D'ouvrage Année : 2015

La saillance référentielle pour la détection des thèmes

Laurence Longo
Amalia Todirascu

Résumé

The purpose of this paper is to describe an automatic topic detection system for French, using two types of cohesion markers: lexical markers and referential markers, as reference chains. Our study focuses on the automatic identification of reference chains in order to determine the most salient referent in a textual segment. We propose a new symbolic method for reference computation, based on the salience of referential expressions. For each candidate, the salience is fixed. The reference computation method combines three elements: a hierarchy of referential expressions based on the Accessibility Theory, some genre-based parameters and the syntactic function of each expression. In addition, antecedent-anaphora candidates verify some lexical, morpho-syntactic and semantic constraints. The automatic topic identification is then performed by combining the reference chains with a similar lexical head of the first mention.
Nous présentons un système de détection automatique de thèmes pour le français qui utilise deux marqueurs de cohésion : les marqueurs lexicaux de surface et les marqueurs référentiels, tels que les chaînes de référence. Notre étude se focalise plus spécifiquement sur l'identification automatique des chaînes de référence qui permet de déterminer le référent le plus saillant dans une portion textuelle. Dans la lignée de méthodes symboliques de calcul de la référence, nous proposons une nouvelle méthode de calcul basée sur la saillance des expressions référentielles. Pour chaque candidat, la saillance est fixe et la méthode de calcul prend en compte trois éléments : une hiérarchie d'expressions référentielles basée sur la théorie de l'accessibilité, des paramètres liés au genre textuel et la fonction syntaxique de chaque expression. De plus, les candidats antécédent-anaphore vérifient une série de contraintes lexicales, morpho-syntaxiques et sémantiques. L'identification des thèmes d'un document s'effectue alors en regroupant les chaînes de référence dont la tête lexicale est similaire.
Fichier non déposé

Dates et versions

hal-00870259 , version 1 (06-10-2013)

Identifiants

  • HAL Id : hal-00870259 , version 1

Citer

Laurence Longo, Amalia Todirascu. La saillance référentielle pour la détection des thèmes. Boisseau Maryvonne and Hamm Albert. Saillance (2) : La saillance en langue et en discours, Presses Universitaires de Franche-Comté, 2015. ⟨hal-00870259⟩

Collections

SITE-ALSACE
134 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More