Une mesure de similarité sémantique pour la classification de documents par le contenu

Rim Al Hulou 1 Amedeo Napoli 1 Emmanuel Nauer 1
1 ORPAILLEUR - Knowledge representation, reasonning
INRIA Lorraine, LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications
Résumé : Dans cet article, nous proposons une approche pour classifier des documents textuels à partir de leur contenu. Le contenu des documents est exprimé par des annotations représentées sous forme d'arbres. Étant donnée une hiérarchie d'annotations génériques, notre approche vise à rattacher une annotation spécifique à une ou plusieurs classes possibles dans la hiérarchie. Ce processus de classification repose sur une mesure de similarité qui permet de mesurer l'écart entre une annotation spécifique et une annotation générique. Un schéma d'algorithme de classification de documents est proposé à partir de cette mesure de similarité.
Type de document :
Article dans une revue
Revue des Sciences et Technologies de l'Information - Série ISI : Ingénierie des Systèmes d'Information, Lavoisier, 2004, Numéro spécial L'objet, 10 (2--3), pp.217--230
Liste complète des métadonnées

https://hal.inria.fr/inria-00100248
Contributeur : Publications Loria <>
Soumis le : mardi 10 octobre 2006 - 17:18:00
Dernière modification le : jeudi 11 janvier 2018 - 06:19:52

Identifiants

  • HAL Id : inria-00100248, version 1

Collections

Citation

Rim Al Hulou, Amedeo Napoli, Emmanuel Nauer. Une mesure de similarité sémantique pour la classification de documents par le contenu. Revue des Sciences et Technologies de l'Information - Série ISI : Ingénierie des Systèmes d'Information, Lavoisier, 2004, Numéro spécial L'objet, 10 (2--3), pp.217--230. 〈inria-00100248〉

Partager

Métriques

Consultations de la notice

241