s'authentifier
version française rss feed
!.. Document complet sous embargo ..!
Mise en ligne du document : document non public

inria-00107535, version 1

A comparative study of Topic Identification on Newspaper and E-mail

Brigitte Bigi () a1, Armelle Brun () a1, Jean-Paul Haton () a1, Kamel Smaïli b1, Imed Zitouni a1

Proceedings of the 8th International Symposium on String Processing and Information Retrieval - SPIRE'01 (2001) 238-241

Résumé : This paper presents several statistical methods for topic identification on two kinds of textual data: newspaper articles and e-mails. Five methods are tested on these two corpora: topic unigrams, cache model, TFIDF classifier, topic perplexity, and weighted model. Our work aims to study these methods by confronting them to very different data. This study is very fruitful for our research. Statistical topic identification methods depend not only on a corpus, but also on its type. One of the methods achieves a topic identification of 80 % on a general newspaper corpus but does not exceed 30 % on e-mail corpus. Another method gives the best result on e-mails, but has not the same behavior on a newspaper corpus. We also show in this paper that almost all our methods achieve good results in retrieving the first two manually annotated labels.

  • a –  UNIVERSITE HENRI POINCARE
  • b –  UNIVERSITE NANCY 2
  • 1 :  PAROLE (INRIA Lorraine - LORIA)
  • INRIA – CNRS : UMR7503 – Université Henri Poincaré - Nancy I – Université Nancy II – Institut National Polytechnique de Lorraine (INPL)
  • Domaine : Informatique/Autre
  • Mots-clés : topic identification – language model – e-mail || identification thématique – modèles de langages – e-mail
  • Référence interne : A01-R-341 || bigi01b
  • Commentaire : Colloque avec actes et comité de lecture. internationale.
 
  • inria-00107535, version 1
  • oai:hal.inria.fr:inria-00107535
  • Contributeur : 
  • Soumis le : Jeudi 19 Octobre 2006, 09:00:22
  • Dernière modification le : Vendredi 20 Octobre 2006, 15:32:29
tous les articles de la base du CCSd...
tous les articles de la base du CCSd...
tous les articles de la base du CCSd...
tous les articles de la base du CCSd...
tous les articles de la base du CCSd...
tous les articles de la base du CCSd...
tous les articles de la base du CCSd...
tous les articles de la base du CCSd...
tous les articles de la base du CCSd...
tous les articles de la base du CCSd...
tous les articles de la base du CCSd...
tous les articles de la base du CCSd...
tous les articles de la base du CCSd...
tous les articles de la base du CCSd...
tous les articles de la base du CCSd...
tous les articles de la base du CCSd...
tous les articles de la base du CCSd...
tous les articles de la base du CCSd...
tous les articles de la base du CCSd...
tous les articles de la base du CCSd...
tous les articles de la base du CCSd...
tous les articles de la base du CCSd...
tous les articles de la base du CCSd...