Algorithmes exacts et heuristiques de placement de flux de données pour l'informatique à grande échelle dans les centres de données en nuage.

Auteurs
Date de publication
2018
Type de publication
Article de journal
Résumé Plusieurs applications axées sur les données volumineuses sont actuellement exécutées en collaboration à l'aide d'une infrastructure distribuée. Ces applications axées sur les données traitent généralement des expériences à grande échelle. Les données générées par ces expériences sont énormes et stockées à plusieurs endroits géographiques pour être réutilisées. Les systèmes de flux de travail, composés de tâches utilisant des modèles collaboratifs basés sur les tâches, présentent de nouveaux besoins en matière de dépendance et d'échange de données. Cela soulève de nouveaux problèmes lors de la sélection des données distribuées et des ressources de stockage afin que l'exécution des applications soit ponctuelle et que l'utilisation des ressources soit rentable. Dans cet article, nous présentons une approche efficace de placement des données pour améliorer les performances du traitement des flux de travail dans les centres de données distribués. L'approche proposée implique deux types de données : les données intermédiaires divisibles et non divisibles. De plus, nous plaçons les données intermédiaires en tenant compte non seulement de leur emplacement d'origine mais aussi de leurs dépendances. L'objectif principal est de minimiser le coût total de stockage, y compris l'effort de transfert, de stockage et de déplacement de ces données en fonction des besoins des applications. Nous proposons d'abord un algorithme exact qui prend en compte les dépendances intra-job, et nous montrons que le problème du placement optimal des données intermédiaires fractionnées est NP-hard. Pour résoudre le problème du placement des données intermédiaires non fractionnables, nous proposons un algorithme heuristique glouton basé sur un cadre d'optimisation des flux réseau. Les résultats expérimentaux montrent que les performances de notre approche sont très prometteuses. Nous montrons également que même avec des conditions divergentes, le rapport de coût de l'approche heuristique est proche de la solution optimale.
Éditeur
Scalable Computing: Practice and Experience
Thématiques de la publication
  • ...
  • Pas de thématiques identifiées
Thématiques détectées par scanR à partir des publications retrouvées. Pour plus d’informations, voir https://scanr.enseignementsup-recherche.gouv.fr