581 articles – 596 Notices  [english version]

hal-00688609, version 1

A sliced inverse regression approach for data stream

Marie Chavent 12, Stéphane Girard () a3, Vanessa Kuentz 4, Benoît Liquet () 5, Thi Mong Ngoc Nguyen 6, Jérôme Saracco 12

  • a –  INRIA
  • 1 :  Institut de Mathématiques de Bordeaux (IMB)
  • http://www.math.u-bordeaux.fr/IMB/
    CNRS : UMR5251 – Université Sciences et Technologies - Bordeaux I – Université Victor Segalen - Bordeaux II 351 cours de la Libération 33405 TALENCE CEDEX France
  • 2 :  CQFD (INRIA Bordeaux - Sud-Ouest)

  • INRIA – Université Sciences et Technologies - Bordeaux I – Université Victor Segalen - Bordeaux II – CNRS : UMR5251 France
  • 3 :  MISTIS (INRIA Grenoble Rhône-Alpes / LJK Laboratoire Jean Kuntzmann)
  • http://mistis.inrialpes.fr/index.html
    INRIA – Laboratoire Jean Kuntzmann France
  • 4 :  Aménités et dynamiques des espaces ruraux (UR ADBX)
  • http://www.irstea.fr
    Irstea 50 avenue de Verdun - Gazinet, F-33612 Cestas France
  • 5 :  Epidémiologie et Biostatistique

  • INSERM : U897 – Université Victor Segalen - Bordeaux II – Institut de Santé Publique, d'Épidémiologie et de Développement (ISPED) 146, rue Léo-Saignat 33076 Bordeaux France
  • 6 :  Institut de Recherche Mathématique Avancée (IRMA)
  • http://www-irma.u-strasbg.fr/
    CNRS : UMR7501 – Université de Strasbourg 7 rue René-Descartes, 67084 Strasbourg Cedex, France France
  • Versions disponibles :  v1 (18-04-2012) v2 (02-10-2012)
  • Références bibliographiques

    • Type de publication : Documents sans référence de publication (Preprint)
    • Domaine : Statistiques/Méthodologie
    • Titre : A sliced inverse regression approach for data stream
    • Résumé : In this article, we focus on data arriving sequentially by block in a stream. A semiparametric regression model involving a common EDR (Effective Dimension Reduction) direction is assumed in each block. Our goal is to estimate this direction at each arrival of a new block. A simple direct approach consists in pooling all the observed blocks and estimate the EDR direction by the SIR (Sliced Inverse Regression) method. But some disadvantages appear in practice such as the storage of the blocks and the running time for high dimensional data. To overcome these drawbacks, we propose an adaptive SIR estimator of based on the SIR approach for a stratified population developed by Chavent et al. (2011). The proposed approach is faster both from computational complexity and running time points of view, and provides data storage benefits. We show the consistency of our estimator at the root-n rate and give its asymptotic distribution. We propose an extension to multiple indices model. We also provide a graphical tool in order to detect if a drift occurs in the EDR direction or if some aberrant blocks appear in the data stream. In a simulation study, we illustrate the good numerical behavior of our estimator. One important advantage of this approach is its adaptability to changes in the underlying model. Finally we apply it on real data concerning the estimation of Mars surface physical properties.
    • Classification ACM :
      G.: Mathematics of Computing/G.3: PROBABILITY AND STATISTICS/G.3.5: Multivariate statistics
      G.3.13: Statistical computing
      G.: Mathematics of Computing/G.3: PROBABILITY AND STATISTICS/G.3.1: Correlation and regression analysis
    • Langue du document : Anglais

    Liste des fichiers attachés à ce document :

     
    • hal-00688609, version 1
    • oai:hal.inria.fr:hal-00688609
    • Contributeur : 
    • Soumis le : Mercredi 18 Avril 2012, 10:10:55
    • Dernière modification le : Mercredi 18 Avril 2012, 13:11:26