Les forêts d'arbres extrêmement aléatoires : utilisation dans un cadre non supervisé

Kevin Dalleau 1 Miguel Couceiro 1 Malika Smaïl-Tabbone 2
1 ORPAILLEUR - Knowledge representation, reasonning
Inria Nancy - Grand Est, LORIA - NLPKD - Department of Natural Language Processing & Knowledge Discovery
2 CAPSID - Computational Algorithms for Protein Structures and Interactions
Inria Nancy - Grand Est, LORIA - AIS - Department of Complex Systems, Artificial Intelligence & Robotics
Résumé : Dans ce travail, nous présentons une nouvelle méthode permettant le calcul de similarités entre objets basée sur les forêts d'arbres extrêmement aléa-toires. L'idée principale de notre méthode est de séparer les données de manière itérative jusqu'à ce qu'une condition d'arrêt soit respectée, et de calculer une similarité basée sur la co-occurrence des instances dans les feuilles de chaque arbre obtenu. Nous évaluons la méthode sur un ensemble de jeux de données synthétiques et réels. Cette évaluation est basée sur la comparaison des similari-tés moyennes entre instances ayant la même étiquette aux similarités moyennes entre instances d'étiquette différente. Ces mesures sont comparables aux notions de similarités intracluster et intercluster, mais ont pour intérêt d'être agnostiques aux choix d'une méthode de clustering en particulier. L'étude empirique montre que la méthode permet effectivement de distinguer les individus n'appartenant pas aux même clusters. Les forêts d'arbres extrêmement aléatoires non supervi-sées ont des propriétés intéressantes, telles que : (i) l'invariance aux transformations monotones de variables, (ii) la robustesse aux variables corrélées, et (iii), la robustesse au bruit. Enfin, nous présentons les résulats obtenus par l'appli-caton d'un algorithme de clustering hiérarchique agglomératif, en utilisant les matrices de similarité obtenues par notre méthode. Les résultats obtenus sur des jeux de données homogènes et hétérogènes sont prometteurs.
Document type :
Conference papers
Complete list of metadatas

https://hal.inria.fr/hal-02099532
Contributor : Miguel Couceiro <>
Submitted on : Monday, April 15, 2019 - 10:13:58 AM
Last modification on : Monday, July 29, 2019 - 12:38:13 PM

File

f-egc_nyoman.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : hal-02099532, version 1

Citation

Kevin Dalleau, Miguel Couceiro, Malika Smaïl-Tabbone. Les forêts d'arbres extrêmement aléatoires : utilisation dans un cadre non supervisé. EGC 2019 - 19ème Conférence Francophone sur l'Extraction et Gestion des connaissances, Jan 2019, Metz, France. pp.395-400. ⟨hal-02099532⟩

Share

Metrics

Record views

55

Files downloads

106