Supportanfragen
Anfragen bei akuten Problemen, welche die Cloud-Infrastruktur selbst betreffen, werden über den Mattermost-Dienst gestellt und von den Cloud-Administratoren Mevludin Blazevic und Arnold Arz von Straussenburg bearbeitet. Alle neuen User, die einen Cloud-Zugang erhalten haben, erhalten über Mattermost die Einladung in einen eigenen Support-Kanal für SPARCI. Dieser beinhaltet öffentliche Kanäle für Ankündigungen, Bugs und neue Features von Apache Cloudstack. Darüber hinaus gibt es je Forschungsgruppe einen geschlossenen Kanal.
Der Onboarding-Prozess selbst erfolgt nicht über Mattermost, sondern manuell per E-Mail an die Cloud-Administration. Mattermost wird nach erfolgreicher Freischaltung als Support-Kanal genutzt.
Wenn weitere Mitglieder einer Forschungsgruppe Zugriff auf den Mattermost-Supportkanal oder auf einen bestehenden CloudStack-Account beziehungsweise ein Projekt benötigen, sollte die verantwortliche Person der Forschungsgruppe dies bei der Cloud-Administration anfragen. Für CloudStack-Zugriff gilt weiterhin, dass eigene Verwaltungszugänge grundsätzlich wissenschaftlichen Mitarbeiter:innen vorbehalten sind.
Welcher Supportkanal ist der richtige?
Für allgemeine Fragen, Ankündigungen, Bugs oder neue CloudStack-Funktionen können die offenen SPARCI-Supportkanäle genutzt werden. Wenn eine Forschungsgruppe einen geschlossenen AG-spezifischen Supportkanal hat, sollten gruppenbezogene VM-, Account-, Projekt- und GPU-Fragen dort gebündelt werden. Das gilt insbesondere für konkrete VM-Namen, GPU-Zuweisungen, Ressourcenfreigaben, Benutzerwechsel innerhalb der Gruppe oder Fragen, die nur die jeweilige Forschungsgruppe betreffen.
Private Direktnachrichten und E-Mails sollten für laufende technische Supportfälle vermieden werden, weil Informationen dort leicht verloren gehen und Vertretungen nicht mitlesen können. Wenn ein Thema mehrere Gruppen betrifft oder eine allgemeine Störung vermutet wird, ist der offene Supportkanal beziehungsweise die Statusseite geeigneter.
Grundsätzlich setzen wir bei allen Anwender:innen voraus, dass diese Kenntnisse im Umgang und der Administration von Linux-Maschinen besitzen. Aufgrund begrenzter personeller Ressourcen bitten wir um Verständnis, dass wir bei grundsätzlichen Fragen zur Installation und Wartung von virtuellen Maschinen keine Hilfestellung bieten können.
Die Cloud-Administration unterstützt bei Infrastrukturproblemen, beispielsweise bei fehlerhaften Ressourcen-Zuweisungen, Problemen mit Hosts, Netzwerken oder Storages sowie bei GPU-Fragen aus Sicht der Infrastruktur. Nicht Teil des Supports sind Konfigurationsfehler innerhalb von VMs, die Auswahl oder Pflege des Betriebssystems, Treiber- und Softwareinstallationen in der VM oder allgemeines Debugging von Nutzer-Workloads.
Was der Cloud-Support abdeckt
Zum Cloud-Support gehören insbesondere:
- Zugang zum CloudStack Self-Service-Portal und zum Mattermost-Supportkanal
- Orientierung in der CloudStack-Oberfläche und bei der VM-Erstellung
- Infrastrukturprobleme mit Hosts, Netzwerken, Storage, Security Groups oder Ressourcenlimits
- administrative vGPU-Zuweisung, GPU-Host-Platzierung und GPU-Verfügbarkeit
- Hinweise auf bekannte Störungen oder Wartungsarbeiten
Nicht abgedeckt sind insbesondere:
- Installation, Härtung und laufende Administration des Betriebssystems innerhalb der VM
- Installation und Pflege von Anwendungssoftware, Python-Umgebungen, Docker-Images oder ML-Workloads
- Debugging von Trainingsskripten, CUDA-Out-of-Memory-Problemen oder allgemeinen Linux-Fehlern
- Sicherheitsverantwortung für Benutzerkonten, Passwörter, SSH-Keys und Dienste innerhalb der VM
Wenn SSH und Web-Konsole gleichzeitig hängen, mehrere VMs betroffen sind oder ein GPU-Workload nach einem Stop/Start nicht mehr auf die zugewiesene GPU zugreifen kann, kann ein Infrastruktur- oder Hostproblem vorliegen. Prüfen Sie in solchen Fällen die Statusseite und melden Sie den VM-Namen, Zeitpunkt, Fehlermeldungen und die betroffenen Zugriffsmethoden im Supportkanal.