sign in
english version rss feed

inria-00000186, version 2

Expériences de classification d'une collection de documents XML de structure homogène

Thierry Despeyroux () 1, Yves Lechevallier () 1, Brigitte Trousse () 1, Anne-Marie Vercoustre () 1

5ème Journées d' Extraction et de Gestion des Connaissances (EGC 2005) 1 (2005)

Abstract: This paper presents some experiments in clustering homogeneous XMLdocuments to validate an existing classification or more generally anorganisational structure. Our approach integrates techniques for extracting knowledge from documents with unsupervised classification (clustering) of documents. We focus on the feature selection used for representing documents and its impact on the emerging classification. We mix the selection of structured features with fine textual selection based on syntactic characteristics.We illustrate and evaluate this approach with a collection of Inria activity reports for the year 2003. The objective is to cluster projects into larger groups (Themes), based on the keywords or different chapters of these activity reports. We then compare the results of clustering using different feature selections, with the official theme structure used by Inria.
–––
Cet article présente différentes expériences de classification de documents XML de structure homogène, en vue d'expliquer et de valider une présentation organisationnelle pré-existante. Le problème concerne le choix des éléments et mots utilisés pour la classification et son impact sur la typologie induite. Pour cela nous combinons une sélection structurelle basée sur la nature des éléments XML et une sélection linguistique basée sur un typage syntaxique des mots. Nous illustrons ces principes sur la collection des rapports d'activité 2003 des équipes de recherche de l'Inria en cherchant des groupements d'équipes (Thèmes) à partir du contenu de différentes parties de ces rapports. Nous comparons nos premiers résultats avec les thèmes de recherche officiels de l'Inria.

  • Domain : Computer Science/Information Retrieval
  • Keywords : XML classification – typologie organisationelle – fouilles de documents – XML clustering – categorisation – organisational structure – knowledge discovery
  • Comment : Cette version corrige des erreurs dans le nom de 2 auteurs cites dans la bibliographie.
  • Available versions :  v1 (2005-08-04) v2 (2005-08-09)
 
  • inria-00000186, version 2
  • oai:hal.inria.fr:inria-00000186
  • From: 
  • Submitted on: Tuesday, 9 August 2005 15:01:13
  • Updated on: Tuesday, 9 August 2005 15:15:56
all articles on CCSd database...
all articles on CCSd database...
all articles on CCSd database...
all articles on CCSd database...
all articles on CCSd database...
all articles on CCSd database...
all articles on CCSd database...
all articles on CCSd database...
all articles on CCSd database...
all articles on CCSd database...
all articles on CCSd database...
all articles on CCSd database...
all articles on CCSd database...
all articles on CCSd database...
all articles on CCSd database...
all articles on CCSd database...
all articles on CCSd database...
all articles on CCSd database...
all articles on CCSd database...
all articles on CCSd database...