Uptime-Monitoring der SPARCI-Dienste

Zur Überwachung der Verfügbarkeit der zentralen SPARCI-Dienste wird eine eigene Instanz von Uptime Kuma betrieben. Uptime Kuma stellt ein zentrales Dashboard sowie eine öffentliche Statusseite bereit, auf der der aktuelle Zustand aller überwachten Komponenten eingesehen werden kann.

Öffentliche Statusseite der SPARCI-Dienste


Überwachte Web Services

Folgende Web-Dienste werden per HTTP-Monitoring überprüft:

  • SPARCI Projekt-Homepage: https://sparci.uni-koblenz.de
  • SPARCI Dokumentation: https://docs.sparci.uni-koblenz.de
  • CloudStack Self-Service Dashboard: https://sparci-cloudstack.uni-koblenz.de

Für jeden dieser Dienste prüft Uptime Kuma in kurzen Intervallen die Erreichbarkeit (HTTP-Statuscode, Antwortzeit) und stellt die Historie in Form von Diagrammen und Verfügbarkeitsbalken dar.


Überwachte Server per Push-Monitoring

Server werden in SPARCI primär über das Push-Monitoring von Uptime Kuma überwacht.

  • Auf jedem überwachten Server läuft ein Cronjob, der in festem Intervall eine HTTP-Anfrage an die Uptime-Kuma-Instanz sendet (Push-URL).
  • Bleiben diese „Heartbeats“ aus, wertet Uptime Kuma den Server als gestört und löst eine Benachrichtigung aus.

Diese Art des Monitorings funktioniert auch zuverlässig hinter Firewalls, da die Verbindung vom Server aktiv initiiert wird und keine eingehenden Verbindungen zu den Servern notwendig sind.

Aktuell werden u. a. folgende Servergruppen so überwacht:

  • Management-Server
  • SSD-Storage-Server
  • HDD-Storage-Server
  • GPU-Server
  • CPU-Server

Überwachung der Universitätsnetzwerkverbindung

Zusätzlich überwacht Uptime Kuma die Konnektivität des SPARCI-Systems zum Universitätsnetzwerk bzw. zum Internet.

  • Hierfür wird in der Regel ein externer HTTP- oder Ping-Monitor eingesetzt, der von der Uptime-Kuma-Instanz aus regelmäßig Ziele außerhalb der eigenen Infrastruktur prüft.
  • So lassen sich Ausfälle oder Störungen der Hochschul-Anbindung (z. B. Routing-Probleme, Provider-Störungen) schnell erkennen und von lokalen Problemen in SPARCI unterscheiden.

Benachrichtigungen bei Ausfällen

Wenn ein Dienst oder Server ausfällt oder die Netzwerkanbindung gestört ist, löst Uptime Kuma automatisch Benachrichtigungen aus.

  • Für SPARCI werden diese Benachrichtigungen über einen Webhook an den Mattermost-Channel der Administratoren gesendet.
  • Der Mattermost-Channel dient als zentrales Alarm- und Diskussionsmedium, sodass alle zuständigen Admins zeitnah über den Vorfall informiert sind und Gegenmaßnahmen koordinieren können.

Je nach Konfiguration können zusätzlich weitere Kanäle (z. B. E-Mail oder andere Chat-Systeme) ergänzt werden, da Uptime Kuma eine große Auswahl an Notification-Integrationen unterstützt.