Clustering en ligne : le point de vue PAC-bayésien

Le Li 1, * Benjamin Guedj 2 Sébastien Loustau 1
* Auteur correspondant
2 MODAL - MOdel for Data Analysis and Learning
LPP - Laboratoire Paul Painlevé - UMR 8524, Inria Lille - Nord Europe, CERIM - Santé publique : épidémiologie et qualité des soins-EA 2694, Polytech Lille, Université de Lille 1, IUT’A
Résumé : Nous nous intéressons dans ce travail à la construction et à la mise en oeuvre d'une méthode de clustering en ligne. Face à des flux de données massives, le clustering est une gageure tant d'un point de vue théorique qu'algorithmique. Nous proposons un nouvel algorithme de clustering en ligne, reposant sur l'approche PAC-bayésienne. En particulier, le nombre de clusters est estimé dynamiquement (c'est-à-dire qu'il peut changer au cours du temps), et nous démontrons des bornes de regret parcimonieuses. De plus, un algorithme via RJMCMC, appelé Paco est présenté, et ses performances sur données simulées seront commentées. Mots-clés. Bornes de regret parcimonieuses, Clustering en ligne, Reversible Jump MCMC, Théorie PAC-bayésienne. Abstract. We address the online clustering problem. When faced with high frequency streams of data, clustering raises theoretical and algorithmic pitfalls. Working under a sparsity assumption, a new online clustering algorithm is introduced. Our procedure relies on the PAC-Bayesian approach, allowing for a dynamic (i.e., time-dependent) estimation of the number of clusters. Its theoretical merits are supported by sparsity regret bounds, and an RJMCMC-flavored implementation called Paco is proposed along with numerical experiments to assess its potential.
Type de document :
Pré-publication, Document de travail
2016
Liste complète des métadonnées

Littérature citée [4 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/hal-01264934
Contributeur : Le Li <>
Soumis le : vendredi 29 janvier 2016 - 20:07:48
Dernière modification le : mercredi 25 avril 2018 - 14:23:16
Document(s) archivé(s) le : vendredi 11 novembre 2016 - 21:40:04

Fichier

Online_Clustering___JdS_2016 (...
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01264934, version 1

Collections

Citation

Le Li, Benjamin Guedj, Sébastien Loustau. Clustering en ligne : le point de vue PAC-bayésien. 2016. 〈hal-01264934〉

Partager

Métriques

Consultations de la notice

210

Téléchargements de fichiers

102