Scalable and Efficient Data Management in Distributed Clouds : Service Provisioning and Data Processing

Jad Darrous

Thèse Année : 2019

Scalable and Efficient Data Management in Distributed Clouds : Service Provisioning and Data Processing

Gestion de données efficace et à grande échelle dans les clouds distribués : Déploiement de services et traitement de données

(1, 2, 3)

1
2
3

Jad Darrous

Fonction : Auteur

Laboratoire de l'Informatique du Parallélisme

Algorithms and Software Architectures for Distributed and HPC Platforms

Software Stack for Massively Geo-Distributed Infrastructures

Résumé

This thesis focuses on scalable data management solutions to accelerate service provisioning and enable efficient execution of data-intensive applications in large-scale distributed clouds. Data-intensive applications are increasingly running on distributed infrastructures (multiple clusters). The main two reasons for such a trend are 1) moving computation to data sources can eliminate the latency of data transmission, and 2) storing data on one site may not be feasible given the continuous increase of data size.On the one hand, most applications run on virtual clusters to provide isolated services, and require virtual machine images (VMIs) or container images to provision such services. Hence, it is important to enable fast provisioning of virtualization services to reduce the waiting time of new running services or applications. Different from previous work, during the first part of this thesis, we worked on optimizing data retrieval and placement considering challenging issues including the continuous increase of the number and size of VMIs and container images, and the limited bandwidth and heterogeneity of the wide area network (WAN) connections.On the other hand, data-intensive applications rely on replication to provide dependable and fast services, but it became expensive and even infeasible with the unprecedented growth of data size. The second part of this thesis provides one of the first studies on understanding and improving the performance of data-intensive applications when replacing replication with the storage-efficient erasure coding (EC) technique.

Cette thèse porte sur des solutions pour la gestion de données afin d'accélérer l'exécution efficace d'applications de type « Big Data » (très consommatrices en données) dans des centres de calculs distribués à grande échelle. Les applications de type « Big Data » sont de plus en plus souvent exécutées sur plusieurs sites. Les deux principales raisons de cette tendance sont 1) le déplacement des calculs vers les sources de données pour éliminer la latence due à leur transmission et 2) le stockage de données sur un site peut ne pas être réalisable à cause de leurs tailles de plus en plus importantes.La plupart des applications s'exécutent sur des clusters virtuels et nécessitent donc des images de machines virtuelles (VMI) ou des conteneurs d’application. Par conséquent, il est important de permettre l’approvisionnement rapide de ces services afin de réduire le temps d'attente avant l’exécution de nouveaux services ou applications. Dans la première partie de cette thèse, nous avons travaillé sur la récupération et le placement des données, en tenant compte de problèmes difficiles, notamment l'hétérogénéité des connexions au réseau étendu (WAN) et les besoins croissants en stockage pour les VMIs et les conteneurs d’application.Par ailleurs, les applications de type « Big Data » reposent sur la réplication pour fournir des services fiables et rapides, mais le surcoût devient de plus en plus grand. La seconde partie de cette thèse constitue l'une des premières études sur la compréhension et l'amélioration des performances des applications utilisant la technique, moins coûteuse en stockage, des codes d'effacement (erasure coding), en remplacement de la réplication.

Mots clés

Data Management Large-scale storage systems Geo-distributed Clouds Edge/Fog computing Service provisioning Virtual machine and container images Hadoop Erasure coding

Gestion de données Systèmes de stockage à grande échelle Clouds geo-distribués Edge/Fog computing Déploiement de services Images des machines virtuelles et des conteneurs Hadoop Codage d'effacement

Domaines

Calcul parallèle, distribué et partagé [cs.DC]

Fichier principal

DARROUS_Jad_2019LYSEN077_These.pdf (4.04 Mo)

Origine : Version validée par le jury (STAR)

ABES STAR : Contact

https://theses.hal.science/tel-02508592

Soumis le : dimanche 15 mars 2020-01:01:51

Dernière modification le : jeudi 24 août 2023-03:04:55

Archivage à long terme le : mardi 16 juin 2020-18:25:42

Dates et versions

tel-02508592 , version 1 (15-03-2020)

Identifiants

HAL Id : tel-02508592 , version 1

Citer

Jad Darrous. Scalable and Efficient Data Management in Distributed Clouds : Service Provisioning and Data Processing. Distributed, Parallel, and Cluster Computing [cs.DC]. Université de Lyon, 2019. English. ⟨NNT : 2019LYSEN077⟩. ⟨tel-02508592⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

ENS-LYON UNIV-NANTES INSTITUT-TELECOM CNRS INRIA UNIV-LYON1 EC-NANTES STAR GRID5000 UNAM INRIA2 THESES-ENS-LYON LS2N LS2N-STACK UDL SILECS NANTES-UNIVERSITE

632 Consultations

1676 Téléchargements

Scalable and Efficient Data Management in Distributed Clouds : Service Provisioning and Data Processing

Gestion de données efficace et à grande échelle dans les clouds distribués : Déploiement de services et traitement de données

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager