Speaker
Summary
Mit wachsender Komplexität von HPC Systemen steigt der Bedarf die Rechenknoten sowie deren Vernetzung zu überwachen. Für die generelle Systemüberwachung existieren bereits einige ausgreifte Softwarelösungen. Die Möglichkeiten für Benutzer ihre eigenen Berechnungen zur Laufzeit zu überwachen sind jedoch zumeist eingestränkt. Desweiteren bieten diese Systeme zumeist nur knotenweite Datenerfassung mit Konzentration auf Ressourcenverbrauch, während die Möglichkeit Performancemetriken sowie Applikationsmetriken zu erfassen oft nicht realisiert ist. Der FEPA Monitoring Stack bietet neben System-, Job- und Performanceüberwachung auf Systemebene auch Möglichkeiten für Benutzer applikationsspezifische Metriken und Events im Monitoringsystem abzulegen und sich grafisch aufbereiten zu lassen. Im Rahmen des Abschlussvortrags wird der FEPA Stack vorgestellt und dessen zukünftige Weiterentwicklung umrissen und zur Diskussion gestellt.