Structure intrinsèque du Web - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Rapport (Rapport De Recherche) Année : 2002

Structure intrinsèque du Web

Fabien Mathieu
Laurent Viennot

Résumé

Le graphe du web a largement été adopté pour représenter la structure du web . En revanche, le lien entre le graphe du web et la localisation des pages web est rarement utilisé. Pourtant, il a déjà été remarqué que la plupart des hyperliens étaient de nature locale (i.e. reliant deux pages d'un même serveur) et que cela permettait de réaliser un encodage efficace du graphe du web . La localité dans le graphe du web se formalise en introduis- ant la notion de , défini comme l'adjonction de l'arbre des préfixes des URLs au graphe. Les noeuds internes sont les préfixes communs des URLs tandis que les feuilles sont les URLs elles-mêmes. Comme le montre la figure , un tri des URLs dans l'ordre lexicographique associé à cet arbre nous permet d'observer la localité des hyperliens directement à partir de la matrice d'adjacence M du graphe du web. Ainsi triée, M se décompose visuelleme- nt en deux termes : M=D+S, où D est diagonale par blocs et S une matrice creuse D. Les blocs de D correspondent à des pages fortement reliées entre elles.

Mots clés

Domaines

Autre [cs.OH]
Fichier principal
Vignette du fichier
RR-4663.pdf (190.36 Ko) Télécharger le fichier

Dates et versions

inria-00071922 , version 1 (23-05-2006)

Identifiants

  • HAL Id : inria-00071922 , version 1

Citer

Fabien Mathieu, Laurent Viennot. Structure intrinsèque du Web. [Rapport de recherche] RR-4663, INRIA. 2002. ⟨inria-00071922⟩
70 Consultations
103 Téléchargements

Partager

Gmail Facebook X LinkedIn More