Estimation de modèles de mélanges gaussiens univariés à partir de données groupées dans le cas d'une grande volumétrie de données - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Communication Dans Un Congrès Année : 2020

Estimation of univariate Gaussian mixtures for huge raw datasets by using binned datasets

Estimation de modèles de mélanges gaussiens univariés à partir de données groupées dans le cas d'une grande volumétrie de données

Filippo Antonazzo
  • Fonction : Auteur
  • PersonId : 1086416
Christophe Biernacki
  • Fonction : Auteur
  • PersonId : 923939

Résumé

Popularity of unsupervised learning is magnified by the regular increase of sample sizes. Indeed, it provides opportunity to reveal information previously out of scope. However, the volume of data leads to some issues related to prohibitive calculation times and also to high energy consumption and the need of high computational ressources. Resorting to binned data depending on an adaptive grid is expected to give proper answerto such green computing issues while not harming the related estimation issues. A first attempt is conducted in the context of univariate Gaussian mixtures, included a numerical illustration and some theoretical advances.
L'intérêt de l'apprentissage non supervisé est magnifié par la croissante constante du nombre d'individus dans les échantillons. C'est en effet l'opportunité de découvrir des informations autrefois inaccessibles. Néanmoins, une importante volumétrie de données pose des difficultés relatives à des temps de calculs rapidement prohibitifs et à la grande consommation d'énergie et des ressources matérielles. L'usage de données regroupées (ou binned data) sur une grille adaptative pourrait répondre à ces questions ayant trait à ce qu'on qualifierait aujourd'hui de green computing, sans pour autant nuire à la qualité des estimations. Une 1ère approche est menée dans le cadre des mélanges gaussiens univariés, comprenant une illustration empirique et des avancées théoriques.
Fichier principal
Vignette du fichier
2020-jds2020-ABK.pdf (254.33 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-03082437 , version 1 (18-12-2020)
hal-03082437 , version 2 (20-01-2021)

Identifiants

  • HAL Id : hal-03082437 , version 1

Citer

Filippo Antonazzo, Christophe Biernacki, Christine Keribin. Estimation de modèles de mélanges gaussiens univariés à partir de données groupées dans le cas d'une grande volumétrie de données. SFdS 2021 - 52èmes Journées de Statistiques de la Société Française de Statistique, May 2020, Nice, France. ⟨hal-03082437v1⟩
166 Consultations
111 Téléchargements

Partager

Gmail Facebook X LinkedIn More