Classification active de flux de documents avec identification des nouvelles classes

Mohamed-Rafik Bouguelia 1 Yolande Belaïd 1 Abdel Belaïd 1
1 READ - Recognition of writing and analysis of documents
LORIA - NLPKD - Department of Natural Language Processing & Knowledge Discovery
Résumé : Dans cet article, on propose un algorithme semi-supervisé actif pour la classification de flux continu de documents. Cet algorithme, basé sur une méthode adaptative d'apprentissage non supervisé, permet de repérer les documents les plus informatifs à l'aide d'une mesure d'incertitude pour demander leur étiquette à un opérateur. Il construit et maintient un modèle sous forme d'un graphe à topologie dynamique dont les nœuds sont des représentants de documents étiquetés, formant ce qu'on appelle l'"espace couvert par les classes connues". Il permet de détecter automatiquement les nouvelles classes apparaissant dans le flux. Un document est identifié comme membre d'une nouvelle classe ou d'une classe connue, selon qu'il se trouve à l'extérieur ou à l'intérieur de l'espace couvert par les classes connues. Les expérimentations effectuées sur des ensembles de documents réels montrent que la méthode nécessite peu de documents à étiqueter et qu'elle atteint des performances comparables aux méthodes supervisées qui sont entraînées sur des ensembles de documents présents en mémoire et entièrement étiquetés.
Type de document :
Communication dans un congrès
CIFED - Colloque International Francophone sur l'Écrit et le Document, Mar 2014, Nancy, France. pp.75-89, 2014
Liste complète des métadonnées

Littérature citée [15 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/hal-00980698
Contributeur : Yolande Belaid <>
Soumis le : vendredi 18 avril 2014 - 15:54:20
Dernière modification le : mardi 24 avril 2018 - 13:34:10
Document(s) archivé(s) le : lundi 10 avril 2017 - 15:45:04

Fichier

CIFED_version_editeur.pdf
Accord explicite pour ce dépôt

Identifiants

  • HAL Id : hal-00980698, version 1

Collections

Citation

Mohamed-Rafik Bouguelia, Yolande Belaïd, Abdel Belaïd. Classification active de flux de documents avec identification des nouvelles classes. CIFED - Colloque International Francophone sur l'Écrit et le Document, Mar 2014, Nancy, France. pp.75-89, 2014. 〈hal-00980698〉

Partager

Métriques

Consultations de la notice

870

Téléchargements de fichiers

211