Skip to Main content Skip to Navigation
Reports

A sparse variable selection procedure in model-based clustering

Résumé : Au vu de l'augmentation du nombre de jeux de données de grande dimension, la sélection de variables pour la classification non supervisée est un enjeu important. Dans le cadre de la classification par mélanges gaussiens, nous reformulons le problème de sélection de variables en un problème général de sélection de modèle. Dans un premier temps, notre procédure consiste à construire une sous-collection de modèles grâce à une méthode de régularisation l1. Puis, l'estimateur du maximum de vraisemblance est déterminé via un algorithme EM pour chaque modèle. Enfin un critère pénalisé non asymptotique est proposé pour sélectionner à la fois le nombre de composants du mélange et l'ensemble des variables informatives pour la classification. D'un point de vue théorique, un théorème général de sélection de modèles dans le cadre de l'estimation par maximum de vraisemblance avec une collection aléatoire de modèles est établi. Il permet en particulier de justifier la forme de la pénalité de notre critère, forme qui dépend de la complexité de la collection de modèles. En pratique, ce critère est calibré grâce à la méthode dite de l'heuristique de pente. Cette procédure est illustrée sur deux jeux de données simulées. Finalement, une extension, associée à une modélisation plus générale des variables non informatives pour la classification, est proposée.
Complete list of metadatas

Cited literature [43 references]  Display  Hide  Download

https://hal.inria.fr/hal-00734316
Contributor : Caroline Meynet <>
Submitted on : Friday, September 21, 2012 - 2:02:28 PM
Last modification on : Wednesday, September 16, 2020 - 4:04:48 PM
Long-term archiving on: : Saturday, December 22, 2012 - 3:37:16 AM

File

RR-INRIA-ARTICLE.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : hal-00734316, version 1

Citation

Caroline Meynet, Cathy Maugis-Rabusseau. A sparse variable selection procedure in model-based clustering. [Research Report] 2012. ⟨hal-00734316⟩

Share

Metrics

Record views

505

Files downloads

484