Une mesure de similarité sémantique pour la classification de documents par le contenu - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Article Dans Une Revue Revue des Sciences et Technologies de l'Information - Série ISI : Ingénierie des Systèmes d'Information Année : 2004

Une mesure de similarité sémantique pour la classification de documents par le contenu

Rim Al Hulou
  • Fonction : Auteur
  • PersonId : 831790
Amedeo Napoli
Emmanuel Nauer

Résumé

Dans cet article, nous proposons une approche pour classifier des documents textuels à partir de leur contenu. Le contenu des documents est exprimé par des annotations représentées sous forme d'arbres. Étant donnée une hiérarchie d'annotations génériques, notre approche vise à rattacher une annotation spécifique à une ou plusieurs classes possibles dans la hiérarchie. Ce processus de classification repose sur une mesure de similarité qui permet de mesurer l'écart entre une annotation spécifique et une annotation générique. Un schéma d'algorithme de classification de documents est proposé à partir de cette mesure de similarité.
Fichier non déposé

Dates et versions

inria-00100248 , version 1 (10-10-2006)

Identifiants

  • HAL Id : inria-00100248 , version 1

Citer

Rim Al Hulou, Amedeo Napoli, Emmanuel Nauer. Une mesure de similarité sémantique pour la classification de documents par le contenu. Revue des Sciences et Technologies de l'Information - Série ISI : Ingénierie des Systèmes d'Information, 2004, Numéro spécial L'objet, 10 (2--3), pp.217--230. ⟨inria-00100248⟩
127 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More