Numerical linear algebra and data analysis in large dimensions using tensor format - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Thèse Année : 2022

Numerical linear algebra and data analysis in large dimensions using tensor format

Algèbre linéaire numérique et analyse de données en grande dimensions utilisant le format tenseur

Résumé

This work aims to establish which theoretical properties of classical linear algebra techniques developed in two different contexts, that are numerical linear algebra and data analysis, are saved and which are lost, once they are extended to tensors through tensor compression algorithms. Moreover, this manuscript aims to highlight the benefits and the flaws of a tensor approach compared to its classical matrix counterpart in the two considered frameworks paying particular attention to the computational aspects.In the numerical linear algebra part, we study experimentally the rounding error effects for an iterative solver and several orthogonalization kernels, when they are extended to the tensor framework through the Tensor Train (TT) formalism. In all the considered algorithms, we introduce additional rounding steps, through the TT-rounding algorithm to face memory constraints, always crucial when dealing with tensors. Our experiments suggest that for these algorithms the classical bounds based on rounding error analysis hold, replacing the unit round-off of the finite precision arithmetic with the precision of the TT-rounding algorithm.The considered iterative solver is Generalised Minimal RESidual (GMRES). We compare our version of TT-GMRES with the previous realization, showing numerically its major robustness. Moreover, we address the problem of solving simultaneously through TT-GMRES many linear systems in TT-format and establishing bounds that guarantee the numerical quality of the individual extracted solutions.The classical orthogonalization schemes generalized to tensors are CGS, CGS2, MGS, MGS2, Householder, and Gram. To complete their study, we study how they affect the performance of the subspace iteration eigensolver extended to tensors through the TT-format.In the data analysis part, we investigate two data analysis techniques, one meant for categorical variables data and one for climate data, generalized to tensors through the Tucker format, highlighting the benefits and the flaws of this choice compared to the corresponding matrix approach.A well-known tool for visualizing and interpreting categorical two-variable tables is Correspondence Analysis (CA). We study geometrically the generalization of CA to multiway tables through the Tucker tensor decomposition technique, contributing to the understanding of the MultiWay Correspondance Analysis (MWCA). The theoretical results are complemented by examples of MWCA applied to real-life datasets. In particular, we perform the MWCA on the original ecology dataset made available in the Malabar project.For climate data, we consider the Empirical Orthogonal Function (EOF) analysis. In particular, we show how to retrieve the final EOF outcome relying on the Tucker compressed format. This approach may be computationally beneficial if the data are made available directly in Tucker format. For completeness, we study numerically the effect of the data approximation through the Tucker model on the final EOF outcome.
L'objectif de ce travail est d'établir quelles propriétés théoriques des techniques d'algèbre linéaire classique développées dans deux contextes différents, que sont l'algèbre linéaire numérique et l'analyse de données, sont préservées et lesquelles sont perdues, une fois qu'elles sont étendues aux tenseurs grâce à des algorithmes de compression tensorielle de rang faible. En outre, ce manuscrit vise à mettre en évidence les avantages et les inconvénients d'une approche tensorielle par rapport à son homologue matricielle classique dans les deux domaines considérés, en accordant une attention particulière aux aspects computationels.Dans la partie d'algèbre linéaire numérique, nous étudions expérimentalement les effets des erreurs d'arrondi sur un solveur itératif et plusieurs méthodes d'orthogonalisation, lorsqu'ils sont étendus aux tenseurs par le formalisme du Train Tensoriel (TT). Dans tous les algorithmes considérés, nous introduisons des étapes d'arrondi supplémentaires, avec l'algorithme de compression TT-rounding, pour faire face aux contraintes de mémoire, toujours cruciales lorsqu'on traite des tenseurs. Nos tests suggèrent que pour ces algorithmes, les limites classiques dues à la propagation des erreurs d'arrondi restent valables, en remplaçant la précision de l'arithmétique par celle de l'algorithme TT-rounding.Le solveur itératif considéré est le Generalised Minimal RESidual (GMRES). Nous comparons notre version TT-GMRES avec une réalisation précédente, en montrant numériquement sa grande robustesse. De plus, nous abordons le problème de la résolution simultanée par TT-GMRES de nombreux systèmes linéaires au format TT et établissons des bornes qui garantissent la qualité numérique de la solution individuelle extraite.Les schémas classiques d'orthogonalisation généralisés aux tenseurs sont CGS, CGS2, MGS, MGS2, Householder et Gram. Pour compléter leur étude, nous étudions comment ils affectent les performances du solveur de problèmes aux valeurs propres basé sur des itérations de sous-espaces étendu aux tenseurs avec le format TT.Dans la partie analyse de données, nous étudions deux techniques d'analyse, l'une destinée aux données de variables catégorielles et l'autre aux données climatiques, généralisées aux tenseurs par le biais du format Tucker, en soulignant les avantages et les inconvénients de ce choix par rapport à l'approche matricielle correspondante.L'Analyse des Correspondances (AC) est un outil bien connu pour visualiser et interpréter des tableaux catégoriels à deux variables. Nous étudions géométriquement la généralisation de l'AC aux tableaux multivoies par la technique de décomposition tensorielle de Tucker, contribuant ainsi à la compréhension de l'Analyse des Correspondances MultiVoies (ACMV). Les résultats théoriques sont complétés par des exemples de ACMV appliqués à des ensembles de données. En particulier, nous réalisons l'ACMV sur le jeu de données écologique original mis à notre disposition dans le cadre du projet Malabar.Pour les données climatiques, nous considérons l'analyse de la Fonction Orthogonale Empirique (FOE). En particulier, nous montrons comment récupérer le résultat final de l'FOE en s'appuyant sur le format compressé de Tucker. Cette approche peut être avantageuse sur le plan du calcul si les données sont disponibles directement au format Tucker. Pour être complet, nous étudions numériquement l'effet de l'approximation des données par le modèle de Tucker sur le résultat FOE final.
Fichier principal
Vignette du fichier
IANNACITO_MARTINA_2022.pdf (3.73 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03952711 , version 1 (23-01-2023)

Identifiants

  • HAL Id : tel-03952711 , version 1

Citer

Martina Iannacito. Numerical linear algebra and data analysis in large dimensions using tensor format. Numerical Analysis [cs.NA]. Université de Bordeaux, 2022. English. ⟨NNT : 2022BORD0377⟩. ⟨tel-03952711⟩
156 Consultations
224 Téléchargements

Partager

Gmail Facebook X LinkedIn More