3532 articles – 5253 Notices  [english version]

hal-00579770, version 1

Paving the way to next generation data-stream clustering: towards a unique and statistically valid cluster structure at any time step

Pascal Cuxac () 1, Alain Lelu (Auteur à contacter de préférence) 234, Martine Cadot () 5

International Journal of Data Mining, Modelling and Management (IJDMMM) 3, 4 (2011) 341-360

  • 1 :  Institut de l'information scientifique et technique (INIST)
  • http://www.inist.fr
    CNRS : UPS76 2, Allée du Parc de Brabois CS 10310 F-54519 Vandoeuvre-lès-Nancy France
  • 2 :  KIWI (LORIA)

  • INRIA – CNRS : UMR7503 – Université Henri Poincaré - Nancy I – Université Nancy II – Institut National Polytechnique de Lorraine (INPL) France
  • 3 :  Laboratoire de Semio-Linguistique, Didactique et Informatique (LASELDI)
  • http://laseldi.univ-fcomte.fr/php/accueil.php
    Université de Franche-Comté France
  • 4 :  Institut des Sciences de la Communication du CNRS (ISCC)
  • http://www.iscc.cnrs.fr/
    CNRS : UPS3088 20 rue Berbier du Mets 75013 Paris France
  • 5 :  ABC (Apprentissage et Biologie Computationnelle) (LORIA)

  • CNRS : UMR7503 – INRIA – Université Henri Poincaré - Nancy I – Université Nancy II – Institut National Polytechnique de Lorraine (INPL) France

Références bibliographiques

  • Type de publication : Articles dans des revues avec comité de lecture
  • Domaine :
    Informatique/Autre
    Informatique/Recherche d'information
    Informatique/Bibliothèque électronique
    Informatique/Traitement du texte et du document
    Statistiques/Applications
  • Titre : Paving the way to next generation data-stream clustering: towards a unique and statistically valid cluster structure at any time step
  • Résumé : In the domain of data-stream clustering, e.g. dynamic text mining, our goal is a two-fold and long term one: 1) at each data input, the resulting cluster structure has to be unique, independent of the order of the preceding inputs, 2) this structure has to be meaningful for an expert, e.g. not composed of a huge "catch-all" cluster in a cloud of tiny specific ones, as is often the case with large sparse datatables. The first preliminary condition is satisfied by our Germen density-mode seeking algorithm, but the relevance of the clusters vis-à-vis expert judgment relies on the definition of a data density, relying itself on the type of graph chosen for embedding the similarities between text inputs. Having already demonstrated the dynamic behavior of Germen algorithm, we focus here on appending a Monte-Carlo method for extracting statistically valid inter-text links, which looks promising applied both to an excerpt of the Pascal bibliographic database, and to the Reuters-RCV1 news test collection. Time and space complexity of our algorithms are eventually discussed.
  • Langue du texte
    intégral :
    Anglais
  • DOI : 10.1504/IJDMMM.2011.042933
  • Journal : International Journal of Data Mining, Modelling and Management (IJDMMM)
  • Audience : internationale
  • Date de publication : 2011
  • Volume : 3
  • Numéro : 4
  • Page, identifiant, ... : 341-360
  • Mots Clés : data stream clustering – text mining – incremental algorithm – randomisation test – density mode clustering – graph validation – data mining
 
  • hal-00579770, version 1
  • oai:hal.archives-ouvertes.fr:hal-00579770
  • Contributeur : 
  • Soumis le : Jeudi 24 Mars 2011, 20:24:01
  • Dernière modification le : Vendredi 16 Mars 2012, 16:19:33