Large Scale Multidimensional Scaling for the Study of Biodiversity

Romain Peressoni

Résumé

Multidimensional scaling (MDS) is a classical dimension reduction algorithm and visualization method. MDS takes a matrix of dissimilarities (or distances) as input and produces a point cloud in lower dimension. Each object present in the input matrix is associated with a point in a Cartesian space, the pairwise distance between the points preserving as well as possible the distance between the entries. The main computational step of MDS is a symmetric eigenvalue decomposition (sEVD). Blanchard et al. (2016) as well as Paradis (2018) showed that this sEVD step of the MDS could be successfully performed with randomization techniques. Two randomization algorithms have been considered, namely, the randomized singular value decomposition (RSVD) and randomized sEVD (RsEVD) (see Halko et al. (2011)). To process problems of even larger size, a high-performance MDS design based on these randomization techniques has furthermore been recently proposed, based on the RSVD formalism.

Le positionnement multidimensionnel (MDS) est un algorithme classique de réduction de dimensions et une méthode de visualisation. La MDS prend une matrice de dissimilarités (ou de distances) en entrée et produit un nuage de points dans une dimension inférieure. Chaque objet présent dans la matrice d’entrée est associé à un point dans le nuage de points, la distance entre les points reflétant au mieux la distance d’entrée. La principale étape de calcul de la MDS est une symmetric eigenvalue decomposition (sEVD). Blanchard et al. (2016) ainsi que Paradis (2018) ont montré que cette étape sEVD de la MDS pouvait être réalisée avec succès à l’aide de techniques de randomisation. Deux algorithmes de randomisation ont été considérés, à savoir la randomized singular value decomposition (RSVD) et la randomized sEVD (RsEVD) (voir Halko et al. (2011)). Pour traiter des problèmes de tailles encore plus importantes, une MDS à haute performance basée sur ces techniques de randomisation a été récemment proposée, basée sur le formalisme RSVD. Le chapitre 1 présente ces résultats comme contexte de la présente thèse. La première partie de cette thèse, présentée dans le chapitre 2, revient sur ces résultats. Nous ouvrons ce chapitre en évaluant l’impact du choix de la technique de randomisation pour réaliser la sEVD sur le comportement numérique de la MDS. D’une part, la RSVD standard peut (légèrement) briser la symétrie implicitement supposée dans la MDS mais ne nécessite qu’une seule projection. D’autre part, la RsEVD standard préserve la symétrie mais nécessite deux projections. Une étude expérimentale menée sur un ensemble de données de biodiversité à petite échelle confirme que les deux approches peuvent être pertinentes. Cela nous incite à proposer une version HPC de la RsEVD en plus de l’algorithme RSVD déjà disponible. Nous sommes donc maintenant en mesure d’effectuer des MDS HPC avec l’une ou l’autre variante d’algorithme aléatoire. Ces deux variantes sont dominées par des produits de matrices (MM). Leurs performances et leur consommation de mémoire sont donc des clés pour une MDS basée sur de tels algorithmes. Nous intégrons donc une MM générale à base de tâches (GEMM) récemment proposée ainsi qu’une nouvelle MM symétrique à base de tâches (SYMM). La MDS qui en résulte est nettement plus performante que la version de base du chapitre 1 sur un ensemble de données de biodiversité à grande échelle. La deuxième partie de cette thèse traite de la comparaison des nuages de points résultant de MDS à grande échelle et envisage la possibilité de travailler sur des nuages de points réduits. Le chapitre 3 traite de la comparaison de nuages de points issus de MDS à grande échelle, tels que ceux obtenus dans la première partie de la thèse. Nous montrons qu’une analyse Procustéenne peut être réalisée efficacement avec seulement quelques points de repère partagés, ce qui permet de réduire considérablement la partie de la matrice d’entrée à calculer. Le chapitre 4 vise à construire une MDS réduite qui opère sur un sous-ensemble de points du nuage. L’algorithme peut être apparenté à de l’échantillonnage uniforme. Cependant, contrairement à la plupart des publications sur l’échantillonnage qui visent à compresser un échantillon original, nous construisons un échantillon d’un modèle sans supposer que nous disposons d’un échantillon original et sans connaître le modèle. La technique de référence utilisée dans les chapitres 3 et 4 exige que nous calculions quelques éléments hors diagonaux en plus des grands blocs diagonaux. Le chapitre 5 examine la possibilité de le faire sans aucun élément hors (blocs) diagonaux.

Large Scale Multidimensional Scaling for the Study of Biodiversity

Positionnement multidimensionnel à grande échelle pour l’étude de la biodiversité

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager