Structure intrinsèque du Web

Résumé : Le graphe du web a largement été adopté pour représenter la structure du web . En revanche, le lien entre le graphe du web et la localisation des pages web est rarement utilisé. Pourtant, il a déjà été remarqué que la plupart des hyperliens étaient de nature locale (i.e. reliant deux pages d'un même serveur) et que cela permettait de réaliser un encodage efficace du graphe du web . La localité dans le graphe du web se formalise en introduis- ant la notion de , défini comme l'adjonction de l'arbre des préfixes des URLs au graphe. Les noeuds internes sont les préfixes communs des URLs tandis que les feuilles sont les URLs elles-mêmes. Comme le montre la figure , un tri des URLs dans l'ordre lexicographique associé à cet arbre nous permet d'observer la localité des hyperliens directement à partir de la matrice d'adjacence M du graphe du web. Ainsi triée, M se décompose visuelleme- nt en deux termes : M=D+S, où D est diagonale par blocs et S une matrice creuse D. Les blocs de D correspondent à des pages fortement reliées entre elles.
Document type :
Reports
Complete list of metadatas

https://hal.inria.fr/inria-00071922
Contributor : Rapport de Recherche Inria <>
Submitted on : Tuesday, May 23, 2006 - 7:16:31 PM
Last modification on : Friday, May 25, 2018 - 12:02:03 PM
Long-term archiving on : Sunday, April 4, 2010 - 10:44:38 PM

Identifiers

  • HAL Id : inria-00071922, version 1

Collections

Citation

Fabien Mathieu, Laurent Viennot. Structure intrinsèque du Web. [Rapport de recherche] RR-4663, INRIA. 2002. ⟨inria-00071922⟩

Share

Metrics

Record views

141

Files downloads

151