Extraction d'entités dans des collections évolutives

Thierry Despeyroux 1 Eduardo Fraschini 1 Anne-Marie Vercoustre 1
1 AxIS - Usage-centered design, analysis and improvement of information systems
CRISAM - Inria Sophia Antipolis - Méditerranée , Inria Paris-Rocquencourt
Abstract : The goal of our work is to use a set of reports and extract named entities, in our case the names of Industrial or Academic partners. Starting with an initial list of entities, we use a first set of documents to identify syntactic patterns that are then validated in a supervised learning phase on a set of annotated documents. The complete collection is then explored. This approach is similar to the ones used in data extraction from semi-structured documents (wrappers) and do not need any linguistic resources neither a large set for training. As our collection of documents would evolve over years , we hope that the performance of the extraction would improve with the increased size of the training set.
Type de document :
Communication dans un congrès
M. Noirhomme-Fraiture and G. Venturini. 7ièmes Journées francophones Extraction et Gestion des Connaissances EGC 2007, Jan 2007, Namur, Belgique. Cépaduès, 76300, pp.533-538, 2007, Revue des Nouvelles Technologies de l'Information (RNTI-E-9)
Liste complète des métadonnées

Littérature citée [8 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/inria-00116910
Contributeur : Anne-Marie Vercoustre <>
Soumis le : vendredi 20 juillet 2007 - 16:46:29
Dernière modification le : mercredi 30 mai 2018 - 10:30:34
Document(s) archivé(s) le : vendredi 25 novembre 2016 - 19:22:56

Fichiers

etam.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : inria-00116910, version 4
  • ARXIV : 0706.2797

Collections

Citation

Thierry Despeyroux, Eduardo Fraschini, Anne-Marie Vercoustre. Extraction d'entités dans des collections évolutives. M. Noirhomme-Fraiture and G. Venturini. 7ièmes Journées francophones Extraction et Gestion des Connaissances EGC 2007, Jan 2007, Namur, Belgique. Cépaduès, 76300, pp.533-538, 2007, Revue des Nouvelles Technologies de l'Information (RNTI-E-9). 〈inria-00116910v4〉

Partager

Métriques

Consultations de la notice

281

Téléchargements de fichiers

125