On Measuring Similarity for Sequences of Itemsets

Elias Egho 1 Chedy Raïssi 1 Toon Calders 2 Nicolas Jay 1 Amedeo Napoli 1
1 ORPAILLEUR - Knowledge representation, reasonning
Inria Nancy - Grand Est, LORIA - NLPKD - Department of Natural Language Processing & Knowledge Discovery
Résumé : Le calcul de similarité entre les séquences est d'une extrême importance dans de nombreuses approches d'explorations de données. Il existe une multitude de mesures de similarités de séquences dans la littérature. La plupart de ces mesures sont conçues pour des séquences simples, dites séquences d'items. Dans ce travail, nous étudions le problème de similarité entre des séquences complexes (i.e., des séquences d'ensembles ou itemsets) d'un point de vue purement combinatoire. Nous présentons de nouveaux résultats afin de compter efficacement toutes les sous-séquences communes à deux séquences. Ces résultats théoriques sont la base d'une mesure de similarité calculée efficacement grâce à une approche de programmation dynamique. Des expériences réalisées et présentées sur des soins de santé et sur des jeux de données synthétiques, montrent que notre mesure de similarité produit des résultats intéressants et probants. Cette série d'expériences indique que notre mesure de similarité est pertinente pour les applications impliquant l'analyse de données séquentielles
Type de document :
Rapport
[Research Report] RR-8086, INRIA. 2012, pp.19


https://hal.inria.fr/hal-00740231
Contributeur : Elias Egho <>
Soumis le : vendredi 1 mars 2013 - 16:44:35
Dernière modification le : jeudi 22 septembre 2016 - 14:33:32

Fichier

report.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-00740231, version 2

Citation

Elias Egho, Chedy Raïssi, Toon Calders, Nicolas Jay, Amedeo Napoli. On Measuring Similarity for Sequences of Itemsets. [Research Report] RR-8086, INRIA. 2012, pp.19. <hal-00740231v2>

Exporter

Partager

Métriques

Consultations de
la notice

189

Téléchargements du document

138