Marc Platini - Apprentissage machine appliqué à l’analyse et à la prédiction des défaillances dans les systèmes HPC

13:00
Mercredi
20
Mai
2020
Organisé par : 
Marc Platini
Intervenant : 
Marc Platini
Équipes : 

Membres du Jury :

  • Franck Cappello, directeur de recherche, Argonne National Laboratory, rapporteur
  • Jean-Marc Menaud, professeur, IMT-Atlantique, rapporteur
  • Sara Bouchenak, professeur, INSA Lyon, examinatrice
  •  Benoit Pelletier, directeur de section R&D, ATOS, invité
  • Noël de Palma, PR, Université Grenoble Alpes, directeur  
  • Thomas Ropars, MCF HDR, Université Grenoble Alpes, co-encadrant

 

Les systèmes informatiques dédiés à la haute performance (HPC) se livrent à une course à la puissance de calcul. Cette course se concrétise principalement par une augmentation de leur taille et de leur complexité. Cependant, cette augmentation entraîne des défaillances fréquentes qui peuvent réduire la disponibilité des systèmes HPC. Pour gérer ces défaillances et être capable de réduire leur influence sur les systèmes HPC, il est important de mettre en place des solutions permettant de comprendre les défaillances, voire de les prédire. En effet, les systèmes HPC produisent une grande quantité de données de supervision qui contiennent de nombreuses informations utiles à propos de leur état de fonctionnement. Cependant, l’analyse de ces données n’est pas facile à réaliser et peut être très fastidieuse car elles reflètent la complexité et la taille des systèmes HPC. Les travaux présentés dans cette thèse proposent d’utiliser des solutions d’apprentissage machine pour réaliser de manière automatisée cette analyse. De manière plus précise, cette thèse présente deux contributions principales : la première s’intéresse à la prédiction des surchauffes des processeurs dans les systèmes HPC, la deuxième se concentre sur l’analyse et la mise en évidence des relations entre les événements présents dans les journaux systèmes. Ces deux contributions sont évaluées sur des données réelles provenant d’un système HPC de grande taille utilisé en production. Pour prédire les surchauffes de processeur, nous proposons une solution qui utilise uniquement la température des processeurs. Elle repose sur l’analyse de la forme générale de la température avant un événement de surchauffe et sur l’apprentissage automatisé des corrélations entre cette forme et les événements de surchauffe grâce à un modèle d’apprentissage supervisé. L’utilisation de la forme générale des courbes et d’un modèle d’apprentissage supervisé permet l’apprentissage en utilisant des données de température avec une faible précision et en utilisant un nombre de cas de surchauffe restreint. L’évaluation de la solution montre qu’elle est capable de prédire plusieurs minutes en avance les surchauffes avec une précision et un rappel élevés. De plus, l’évaluation de ces résultats montre qu’il est possible d’utiliser des actions préventives reposant sur les prédictions faites par la solution pour réduire l’influence des surchauffes sur le système. Pour analyser et mettre en évidence de manière automatisée les relations causales entre dans les événements décrits dans les journaux des systèmes HPC, nous proposons une utilisation détournée d’un modèle d’apprentissage machine profond. En effet, ce type de modèle est classiquement utilisé pour des tâches de prédiction. Grâce à l’ajout d’une nouvelle couche proposée par des travaux de l’état de l’art étudiant les méthodes d’apprentissage machine, il est possible de déterminer l’importance des entrées de l’algorithme dans sa prédiction. En utilisant les informations sur l’importance des entrées, nous sommes capables de reconstruire les relations entre les différents événements. L’évaluation de la solution montre qu’elle est capable de mettre en évidence les relations de la grande majorité des événements survenant sur un système HPC. De plus, son évaluation par des administrateurs montre la validité des corrélations mises en évidence. Les deux contributions et leurs évaluations montrent le bénéfice de l’utilisation de solutions d’apprentissage machine pour la compréhension et la prédiction des défaillances dans les systèmes HPC en automatisant l’analyse des données de supervision.