Classification et apprentissage actif à partir d'un flux de données évolutif en présence d'étiquetage incertain

Mohamed-Rafik Bouguelia 1
1 READ - Recognition of writing and analysis of documents
LORIA - NLPKD - Department of Natural Language Processing & Knowledge Discovery
Résumé : Cette thèse traite de l'apprentissage automatique pour la classification de données. Afin de réduire le coût de l'étiquetage, l'apprentissage actif permet de formuler des requêtes pour demander à un opérateur d'étiqueter seulement quelques données choisies selon un critère d'importance. Nous proposons une nouvelle mesure d'incertitude qui permet de caractériser l'importance des données et qui améliore les performances de l'apprentissage actif par rapport aux mesures existantes. Cette mesure détermine le plus petit poids nécessaire à associer à une nouvelle donnée pour que le classifieur change sa prédiction concernant cette donnée. Nous intégrons ensuite le fait que les données à traiter arrivent en continu dans un flux de longueur infinie. Nous proposons alors un seuil d'incertitude adaptatif qui convient pour un apprentissage actif à partir d'un flux de données et qui réalise un compromis entre le nombre d'erreurs de classification et le nombre d'étiquettes de classes demandées. Les méthodes existantes d'apprentissage actif à partir de flux de données, sont initialisées avec quelques données étiquetées qui couvrent toutes les classes possibles. Cependant, dans de nombreuses applications, la nature évolutive du flux fait que de nouvelles classes peuvent apparaître à tout moment. Nous proposons une méthode efficace de détection active de nouvelles classes dans un flux de données multi-classes. Cette méthode détermine de façon incrémentale une zone couverte par les classes connues, et détecte les données qui sont extérieures à cette zone et proches entre elles, comme étant de nouvelles classes. Enfin, il est souvent difficile d'obtenir un étiquetage totalement fiable car l'opérateur humain est sujet à des erreurs d'étiquetage qui réduisent les performances du classifieur appris. Cette problématique a été résolue par l'introduction d'une mesure qui reflète le degré de désaccord entre la classe donnée manuellement et la classe prédite et une nouvelle mesure d'"informativité" permettant d'exprimer la nécessité pour une donnée mal étiquetée d'être ré-étiquetée par un opérateur alternatif.
Type de document :
Thèse
Intelligence artificielle [cs.AI]. Université de Lorraine, 2015. Français
Liste complète des métadonnées

Littérature citée [123 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/tel-01262775
Contributeur : Mohamed-Rafik Bouguelia <>
Soumis le : vendredi 29 janvier 2016 - 19:40:37
Dernière modification le : mardi 24 avril 2018 - 13:30:21
Document(s) archivé(s) le : vendredi 11 novembre 2016 - 17:37:26

Identifiants

  • HAL Id : tel-01262775, version 1

Citation

Mohamed-Rafik Bouguelia. Classification et apprentissage actif à partir d'un flux de données évolutif en présence d'étiquetage incertain. Intelligence artificielle [cs.AI]. Université de Lorraine, 2015. Français. 〈tel-01262775〉

Partager

Métriques

Consultations de la notice

338

Téléchargements de fichiers

831