Efficient estimation of the cardinality of large data sets - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Communication Dans Un Congrès Année : 2006

Efficient estimation of the cardinality of large data sets

Philippe Chassaing
Lucas Gerin
  • Fonction : Auteur
  • PersonId : 835101

Résumé

F.Giroire has recently proposed an algorithm which returns the approximate number of distincts elements in a large sequence of words, under strong constraints coming from the analysis of large data bases. His estimation is based on statistical properties of uniform random variables in $[0,1]$. In this note we propose an optimal estimation, using Kullback information and estimation theory.
Fichier principal
Vignette du fichier
EstimationEtendue.pdf (130.56 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-00095370 , version 1 (12-01-2007)
hal-00095370 , version 2 (28-08-2007)
hal-00095370 , version 3 (29-08-2007)
hal-00095370 , version 4 (22-04-2011)
hal-00095370 , version 5 (17-08-2015)

Identifiants

Citer

Philippe Chassaing, Lucas Gerin. Efficient estimation of the cardinality of large data sets. 4th Colloquium on Mathematics and Computer Science, 2006, France. pp.419-422. ⟨hal-00095370v3⟩
651 Consultations
767 Téléchargements

Altmetric

Partager

Gmail Facebook X LinkedIn More