Adaptive Segmentation Techniques for Efficient Representation of Time Series Datasets - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Thèse Année : 2022

Adaptive Segmentation Techniques for Efficient Representation of Time Series Datasets

Techniques de segmentation adaptative pour une représentation efficace des séries temporelles

Lamia Djebour
  • Fonction : Auteur
  • PersonId : 1119503

Résumé

Many applications in different domains generate time series data at an increasing rate. The continuous flow of emitted data may concern personal activities (e.g., through smart-meters or smart-plugs for electricity or water consumption) or professional activities (e.g., for monitoring heart activity or through the sensors installed on plants by farmers). This results in the production of large and complex data, usually in the form of time series.In recent years, there has been an explosion of interest in time series data mining. As a general rule, large time series come along with super-high dimensionality. As a consequence, it is difficult and inefficient to directly mine the raw time series without relying on dimensionality reduction. Therefore, the representation of the data is the key to efficient and effective solutions. Given this high data volumes in time series applications, or simply the need for fast response times, it is usually necessary to rely on alternative, shorter representations of these series, usually with loss. This incurs approximate comparisons of time series where precision is a major issue.In this thesis, we focus on the problem of segmenting time series before their transformation into symbolic representations. For this, we propose solutions to adaptively segment time series databases by adopting a variable segment size that depends on the time series distribution. These methods reduce significantly the information loss incurred by possible splittings at different steps of the representation calculation, particularly for datasets with unbalanced (non-uniform) distributions.We provide theoretical guarantees on the lower bound of similarity measures, and our results illustrate that our techniques can significantly improve the time series representation quality.
De nombreuses applications dans différents domaines génèrent des données de séries temporelles à un rythme croissant. Le flux continu de données émises peut concerner des activités personnelles (par exemple, au moyen de compteurs intelligents ou de prises connectées pour la consommation d’électricité ou d’eau) ou professionnelles (par exemple, pour la surveillance de l’activité cardiaque ou à travers les capteurs installés sur les plantes par les agriculteurs). Il en résulte une production de données volumineuses et complexes, généralement sous la forme de séries temporelles.Généralement, les bases de données de séries temporelles sont caractérisées par leur très grand volume. Par conséquent, il est difficile et inefficace d’exploiter directement les données de séries temporelles brutes sans avoir recours à la réduction de la dimensionnalité.Ce verrou motive l’étude de représentations représentations alternatives, plus courtes, qui résument les séries d’origine avec une perte d’information acceptable. Les comparaisons de séries temporelles qui se basent sur ces représentations sont alors approximatives, ce qui fait de la précision un enjeu majeur.Dans cette thèse, nous étudions le problème de la segmentation des séries temporelles avant qu’elles soient transformées en représentations symboliques. Pour cela, nous proposons des solutions de segmentation adaptative des séries temporelles en adoptant une taille de segment variable qui dépend de la distribution de ces séries. Ces méthodes réduisent de manière significative la perte d’information due aux découpages possibles dans les différentes étapes du calcul de la représentation, en particulier pour les ensembles de données dont les distributions sont non uniformes.Nous fournissons des garanties théoriques sur la borne inférieure des mesures de similitude entre séries temporelles, et nos résultats montrent que nos techniques peuvent améliorer considérablement la qualité de la représentation des séries temporelles.
Fichier principal
Vignette du fichier
DJEBOUR_2022_archivage.pdf (13.1 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03904591 , version 1 (17-12-2022)
tel-03904591 , version 2 (05-05-2023)

Identifiants

  • HAL Id : tel-03904591 , version 2

Citer

Lamia Djebour. Adaptive Segmentation Techniques for Efficient Representation of Time Series Datasets. Computation and Language [cs.CL]. Université de Montpellier, 2022. English. ⟨NNT : 2022UMONS040⟩. ⟨tel-03904591v2⟩
104 Consultations
24 Téléchargements

Partager

Gmail Facebook X LinkedIn More