Autonomic and Energy-Efficient Management of Large-Scale Virtualized Data Centers

Eugen Feller

Abstract

Large-scale virtualized data centers require cloud providers to implement scalable, autonomic, and energy-efficient cloud management systems. To address these challenges this thesis provides four main contributions. The first one proposes Snooze, a novel Infrastructure-as-a-Service (IaaS) cloud management system, which is designed to scale across many thousands of servers and virtual machines (VMs) while being easy to configure, highly available, and energy efficient. For scalability, Snooze performs distributed VM management based on a hierarchical architecture. To support ease of configuration and high availability Snooze implements self-configuring and self-healing features. Finally, for energy efficiency, Snooze integrates a holistic energy management approach via VM resource (i.e. CPU, memory, network) utilization monitoring, underload/overload detection and mitigation, VM consolidation (by implementing a modified version of the Sercon algorithm), and power management to transition idle servers into a power saving mode. A highly modular Snooze prototype was developed and extensively evaluated on the Grid'5000 testbed using realistic applications. Results show that: (i) distributed VM management does not impact submission time; (ii) fault tolerance mechanisms do not impact application performance and (iii) the system scales well with an increasing number of resources thus making it suitable for managing large-scale data centers. We also show that the system is able to dynamically scale the data center energy consumption with its utilization thus allowing it to conserve substantial power amounts with only limited impact on application performance. Snooze is an open-source software under the GPLv2 license. The second contribution is a novel VM placement algorithm based on the Ant Colony Optimization (ACO) meta-heuristic. ACO is interesting for VM placement due to its polynomial worst-case time complexity, close to optimal solutions and ease of parallelization. Simulation results show that while the scalability of the current algorithm implementation is limited to a smaller number of servers and VMs, the algorithm outperforms the evaluated First-Fit Decreasing greedy approach in terms of the number of required servers and computes close to optimal solutions. In order to enable scalable VM consolidation, this thesis makes two further contributions: (i) an ACO-based consolidation algorithm; (ii) a fully decentralized consolidation system based on an unstructured peer-to-peer network. The key idea is to apply consolidation only in small, randomly formed neighbourhoods of servers. We evaluated our approach by emulation on the Grid'5000 testbed using two state-of-the-art consolidation algorithms (i.e. Sercon and V-MAN) and our ACO-based consolidation algorithm. Results show our system to be scalable as well as to achieve a data center utilization close to the one obtained by executing a centralized consolidation algorithm.

Les grands centres de données virtualisés nécessitent que les fournisseurs de nuages informatiques mettent en œuvre des systèmes de gestion de machines virtuelles passant à l'échelle, autonomes et économiques en énergie. Pour répondre à ces défis, cette thèse apporte quatre contributions principales. La première est la proposition d'un nouveau système de gestion de nuages IaaS, Snooze, qui a été conçu pour gérer plusieurs milliers de serveurs et de machines virtuelles (VMs) tout en étant facile à configurer, hautement disponible et économique en énergie. Pour le passage à l'échelle, Snooze gère les VM de manière distribuée sur la base d'une architecture hiérarchique. Pour offrir la facilité de configuration et la haute disponibilité, Snooze met en œuvre des mécanismes d'auto-configuration et d'autoréparation. Finalement, pour l'efficacité énergétique, Snooze est fondé sur une approche globale à travers la surveillance de la consommation de ressources (i.e. CPU, mémoire, réseau) des VMs, la détection et la résolution des situations de sous-charge et de surcharge, la consolidation de VMs (par la mise en œuvre d'une version modifiée de l'algorithme Sercon) et la gestion de la consommation d'énergie en faisant passer les serveurs inactifs dans un mode de faible consommation énergétique. Un prototype modulaire du système Snooze a été développé et a fait l'objet d'une évaluation approfondie à l'aide d'applications réalistes sur la plate-forme Grid'5000. Les résultats montrent que (i) la gestion distribuée des VMs est sans impact sur le temps de soumission, (ii) les mécanismes de tolérance aux fautes n'ont pas d'impact sur les performances des applications, et que le système passe à l'échelle avec le nombre de ressources, ce qui fait qu'il est approprié pour les grands centres de données. Nous montrons également que le système est capable d'adapter la consommation énergétique du centre de données par rapport à sa charge permettant donc de substantielles économies d'énergie avec seulement un impact limité sur les performances des applications. Snooze est un logiciel libre sous licence GPLv2. La seconde contribution est un nouvel algorithme de placement de VMs fondé sur la méta-heuristique d'optimisation par colonies de fourmis (ACO). L'ACO est intéressante pour le placement de VMs en raison de sa complexité dans le pire cas polynomiale, de ses solutions proches de l'optimal et de sa facilité de parallélisation. Les résultats de simulation montrent que le passage à l'échelle de la mise en œuvre actuelle de l'algorithme est limité à un petit nombre de serveurs et de VMs. Cependant, l'algorithme se comporte mieux que l'approche gloutonne First-Fit-Decreasing pour le compactage des VMs et qu'il calcule des solutions proches de l'optimal. Pour une consolidation de VMs passant à l'échelle, cette thèse apporte deux contributions supplémentaires : (i) un algorithme de consolidation fondé sur l'ACO, (ii) un système de consolidation totalement décentralisé fondé sur un réseau pair-à-pair non structuré. L'idée clé est d'appliquer la consolidation dans de petits groupes de serveurs formés aléatoirement. Nous avons évalué notre approche par émulation sur la plate-forme Grid'5000 en utilisant deux algorithmes de consolidation existants (i.e. Sercon et V-MAN) ainsi que notre algorithme fondé sur l'ACO. Les résultats montrent que notre système passe à l'échelle et permet d'obtenir un taux d'utilisation du centre de données proche de celui qui serait obtenu avec un algorithme de consolidation centralisé.

Autonomic and Energy-Efficient Management of Large-Scale Virtualized Data Centers

Gestion autonome et économique en énergie des grands centres de données virtualisés

Abstract

Keywords

Domains

Dates and versions

Identifiers

Cite

Export

Collections

Share