Generalized Optimization Framework for Graph-based Semi-supervised Learning - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Rapport (Rapport De Recherche) Année : 2011

Generalized Optimization Framework for Graph-based Semi-supervised Learning

Résumé

We develop a generalized optimization framework for graph-based semi-supervised learning. The framework gives as particular cases the Standard Laplacian, Normalized Laplacian and PageRank based methods. We have also provided new probabilistic interpretation based on random walks and characterized the limiting behaviour of the methods. The random walk based interpretation allows us to explain di erences between the performances of methods with di erent smoothing kernels. It appears that the PageRank based method is robust with respect to the choice of the regularization parameter and the labelled data. We illustrate our theoretical results with two realistic datasets, characterizing di erent challenges: Les Miserables characters social network and Wikipedia hyper-link graph. The graph-based semi-supervised learning classi- es the Wikipedia articles with very good precision and perfect recall employing only the information about the hyper-text links.
Dans ce rapport nous proposons un schéma d'optimisation générique pour l'apprentissage semi-supervisé sur des graphes. Ce cadre intègre comme cas particuliers les approches dites du Laplacien standard et du Laplacien normalis é ainsi qu'une méthode basée sur PageRank. Nous proposons également une interprétation probabiliste originale qui s'appuie sur la notion de marche aléatoire, puis nous étudions les comportements limites de ces méthodes. Le recours aux marches aléatoires nous permet d'expliquer les di érences de performances existant entre ces trois noyaux de lissage. Une des conclusions principales de ce travail est que les méthodes construites sur PageRank sont plus robustes face au choix du paramètre de régularisation et des points marqués. Nous illustrons nos résultats théoriques avec deux jeux de données réelles représentatives de deux dé s distincts: celui des réseaux sociaux avec le cas des personnages du roman "Les Misérables" et celui des graphes d'hyper-liens à travers l'application Wikipedia. En particulier, nous démontrons qu'il est possible de classi er les articles de Wikipedia avec une très bonne précision et un très bon rappel, à partir de la seule information fournie par les liens hyper-texte.
Fichier principal
Vignette du fichier
RR-7774.pdf (648.32 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

inria-00633818 , version 1 (19-10-2011)

Identifiants

  • HAL Id : inria-00633818 , version 1
  • ARXIV : 1110.4278

Citer

Konstantin Avrachenkov, Paulo Gonçalves, Alexey Mishenin, Marina Sokol. Generalized Optimization Framework for Graph-based Semi-supervised Learning. [Research Report] RR-7774, INRIA. 2011. ⟨inria-00633818⟩
323 Consultations
296 Téléchargements

Altmetric

Partager

Gmail Facebook X LinkedIn More