Une mesure de similarité sémantique pour la classification de documents par le contenu

Rim Al Hulou 1 Amedeo Napoli 1 Emmanuel Nauer 1
1 ORPAILLEUR - Knowledge representation, reasonning
INRIA Lorraine, LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications
Résumé : Dans cet article, nous proposons une approche pour classifier des documents textuels à partir de leur contenu. Le contenu des documents est exprimé par des annotations représentées sous forme d'arbres. Étant donnée une hiérarchie d'annotations génériques, notre approche vise à rattacher une annotation spécifique à une ou plusieurs classes possibles dans la hiérarchie. Ce processus de classification repose sur une mesure de similarité qui permet de mesurer l'écart entre une annotation spécifique et une annotation générique. Un schéma d'algorithme de classification de documents est proposé à partir de cette mesure de similarité.
Document type :
Journal articles
Complete list of metadatas

https://hal.inria.fr/inria-00100248
Contributor : Publications Loria <>
Submitted on : Tuesday, October 10, 2006 - 5:18:00 PM
Last modification on : Friday, May 24, 2019 - 10:58:08 AM

Identifiers

  • HAL Id : inria-00100248, version 1

Collections

Citation

Rim Al Hulou, Amedeo Napoli, Emmanuel Nauer. Une mesure de similarité sémantique pour la classification de documents par le contenu. Revue des Sciences et Technologies de l'Information - Série ISI : Ingénierie des Systèmes d'Information, Lavoisier, 2004, Numéro spécial L'objet, 10 (2--3), pp.217--230. ⟨inria-00100248⟩

Share

Metrics

Record views

272