Visualization and Detection of Resource Usage Anomalies in Large Scale Distributed Systems - Inria - Institut national de recherche en sciences et technologies du numérique Accéder directement au contenu
Rapport (Rapport De Recherche) Année : 2010

Visualization and Detection of Resource Usage Anomalies in Large Scale Distributed Systems

Résumé

Understanding the behavior of large scale distributed systems such as clouds, computing grids or volunteer computing systems is generally extremely difficult and tedious as it requires to observe a very large number of components over a very large period of time. The analysis of distributed systems generally begins with gathering resource utilization monitoring data through the use of observation tools. This information can then be explored with different analysis techniques to understand the reason behind anomalies that can be present in the system. This paper follows the same two-phase approach but proposes some methods that reveal particularly well suited to the study of very large scale distributed systems. More specifically, in the first phase, we register resource utilization categorized according to application components. The second phase proposes various \emph{ad hoc} different visualization techniques enabling easy navigation through space and time. We demonstrate the efficiency of this approach through the analysis of simulations of the famous volunteer computing BOINC architecture. These simulations rely on the SimGrid framework, to which our analysis techniques have been incorporated. Three scenarios are analyzed in this paper: analysis of the resource sharing mechanism, resource usage of projects that aim at optimizing response time instead of throughput, and the impact of input file size on such an architecture. The results show that our approach allows an easy identification of different types of resource usage anomalies, unfair resource sharing, contention, moving network bottlenecks, and suboptimal resource usage.
La comprehension du comportement des systèmes distribués de large échelle tels que des systèmes dématérialisés, le calcul des grilles ou des systèmes de calcul volontaires est généralement extrêmement difficile et pénible car il exige l'observation d'un nombre très grand de composants sur une période de temps aussi grande. L'analyse des systèmes distribués commence généralement par recueillir des données de surveillance d'utilisation de ressource par l'utilisation des outils d'observation. Cette information peut alors être explorée avec différentes techniques d'analyse pour comprendre la raison derrière les anomalies qui peuvent être présentes dans le système. Ce document suit la même approche biphasée mais propose quelques méthodes qui se revelent particulièrement bien adaptés à l'étude des systèmes distribués à large échelle. Plus spécifiquement, dans la première phase, nous enregistrons l'utilisation de ressource classée par catégorie selon des composants d'application. La deuxième phase propose divers techniques de visualisation pour permettre une navigation facile dans l'espace et le temps. Nous démontrons l'efficacité de cette approche par l'analyse des simulations de la célèbre architecture BOINC pour le calcul volontaire. Les simulations se fondent sur le cadre de SimGrid, auquel nos techniques d'analyse ont été incorporées. Trois scénarios sont analysés en ce document : analyse du mécanisme de partage de ressource, utilisation de ressource des projets qui visent à optimiser le temps de réponse au lieu de la sortie, et l'impact de la taille de fichier d'entrée sur une telle architecture. L'exposition de résultats que notre approche permet une identification facile de différents types d'anomalies d'utilisation de ressource, partage de ressource injuste, contention, goulot d'étranglement mobiles sur le réseau, et utilisation de ressource suboptimale.
Fichier principal
Vignette du fichier
RR-7438.pdf (1.2 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

inria-00529569 , version 1 (26-10-2010)

Identifiants

  • HAL Id : inria-00529569 , version 1

Citer

Lucas Mello Schnorr, Arnaud Legrand, Jean-Marc Vincent. Visualization and Detection of Resource Usage Anomalies in Large Scale Distributed Systems. [Research Report] RR-7438, INRIA. 2010. ⟨inria-00529569⟩
235 Consultations
136 Téléchargements

Partager

Gmail Facebook X LinkedIn More