Apprentissage pour le contrôle de plateformes parallèles à large échelle.

Auteurs
Date de publication
2018
Type de publication
Thèse
Résumé Fournir les infrastructures de calcul nécessaires à la résolution des problèmescom-plexes de la société moderne constitue un défistratégique. Lesorganisations y répondent classiquement en mettant en place de largesinfrastructures de calcul parallèle et distribué. Les vendeurs de systèmes deCalcul Hautes Performances sont incités par la compétition à produire toujoursplus de puissance de calcul et de stockage, ce qui mène à des plateformes”Petascale“ spécifiques et sophistiquées, et bientôt à des machines”Exascale“. Ces systèmes sont gérés de manière centralisée à l’aide desolutions logicielles de gestion de jobs et de resources dédiées. Un problèmecrucial auquel répondent ces logiciels est le problème d’ordonnancement, pourlequel le gestionnaire de resources doit choisir quand, et sur quellesresources exécuter quelle tache calculatoire. Cette thèse fournit des solutionsà ce problème. Toutes les plateformes sont différentes. En effet, leurinfrastructure, le comportement de leurs utilisateurs et les objectifs del’organisation hôte varient. Nous soutenons donc que les politiquesd’ordonnancement doivent s’adapter au comportement des systèmes. Dans cemanuscrit, nous présentons plusieurs manières d’obtenir cette adaptativité. Atravers une approche expérimentale, nous étudions plusieurs compromis entre lacomplexité de l’approche, le gain potentiel, et les risques pris.
Thématiques de la publication
Thématiques détectées par scanR à partir des publications retrouvées. Pour plus d’informations, voir https://scanr.enseignementsup-recherche.gouv.fr