Web page segmentation, evaluation and applications

Résumé : Les pages web sont devenues plus complexes que jamais, principalement parce qu'elles sont générées par des systèmes de gestion de contenu (CMS). Il est donc difficile de les analyser, c'est-à-dire d'identifier et classifier automatiquement les différents éléments qui les composent. La segmentation de pages web est une des solutions à ce problème. Elle consiste à décomposer une page web en segments, visuellement et sémantiquement cohérents, appelés blocs. La qualité d'une segmentation est mesurée par sa correction et sa généricité, c'est-à-dire sa capacité à traiter des pages web de différents types. Notre recherche se concentre sur l'amélioration de la segmentation et sur une mesure fiable et équitable de la qualité des segmenteurs. Nous proposons un modèle pour la segmentation ainsi que notre segmenteur Block-o-Matic (BoM). Nous définissons un modèle d'évaluation qui prend en compte le contenu ainsi que la géométrie des blocs pour mesurer la correction d'un segmenteur par rapport à une vérité de terrain. Ce modèle est générique, il permet de tester tout algorithme de segmentation et observer ses performances sur différents types de page. Nous l'avons testé sur quatre segmenteurs et quatre types de pages. Les résultats montrent que BOM surpasse ses concurrents en général et que la performance relative d'un segmenteur dépend du type de page. Enfin, nous présentons deux applications développées au dessus de BOM. Pagelyzer compare deux versions de pages web et décide si elles sont similaires ou pas. C'est la principale contribution de notre équipe au projet européen Scape (FP7-IP). Nous avons aussi développé un outil de migration de pages HTML4 vers le nouveau format HTML5.
Type de document :
Thèse
Web. Université Pierre et Marie Curie - Paris VI, 2015. English. 〈NNT : 2015PA066004〉
Domaine :
Liste complète des métadonnées

Littérature citée [63 références]  Voir  Masquer  Télécharger

https://tel.archives-ouvertes.fr/tel-01128002
Contributeur : Abes Star <>
Soumis le : lundi 9 mars 2015 - 10:03:05
Dernière modification le : jeudi 22 novembre 2018 - 14:17:11
Document(s) archivé(s) le : mercredi 10 juin 2015 - 13:00:24

Fichier

2015PA066004.pdf
Version validée par le jury (STAR)

Identifiants

  • HAL Id : tel-01128002, version 1

Citation

Andrés Sanoja Vargas. Web page segmentation, evaluation and applications. Web. Université Pierre et Marie Curie - Paris VI, 2015. English. 〈NNT : 2015PA066004〉. 〈tel-01128002〉

Partager

Métriques

Consultations de la notice

670

Téléchargements de fichiers

1393