Frequently Asked Questions (FAQ)

Hier sind einige Frequently Asked Questions (FAQs) zum Thema:

Wer kann auf das Self-Service-Portal von SPARCI zugreifen?

Der Zugriff auf das Self-Service-Portal der Cloud ist den wissenschaftlichen Mitarbeitern/Hilfskräften der Forschungsgruppen vorbehalten.

Können Studierende die Ressourcen von SPARCI nutzen?

Ja, Studierende können die SPARCI-Ressourcen nutzen, wenn sie von einem Mitarbeiter der Universität Koblenz betreut werden. Dies kann im Rahmen einer Abschlussarbeit oder eines Projektes geschehen. Direkter Zugriff auf die Verwaltungsoberfläche von SPARCI steht Studierenden jedoch nicht zur Verfügung.

Wie kann ich einen Zugang zur Cloud beantragen?

Bitte senden Sie eine Anfrage an Herr Mevludin Blazevic. Beachten Sie bitte dass für die Cloud der Benutzer an eine Forschungsgruppe gebunden ist, benennen Sie daher in Ihrer Anfrage Ihre zugehörige Forschungsgruppe.

Können GPU-Ressourcen für KI und ML-Berechnungen genutzt werden?

Ja, der Cluster verfügt über leistungsstarke NVidia A100 Grafikkarten, welche auch über die Cloud genutzt werden können. Wenden Sie sich an die Cloud-Administratoren Arnold Arz oder Mevludin Blazevic um weitere Informationen zu erhalten.

Was ist bei der Installation von CUDA zu beachten?

Voraussetzung

Für die Installation ist eine CUDA-fähige Grafikkarte, wie etwa NVidia A100, erforderlich. Zudem werde der vorinstallierte Grid-Treiber benötigt. Sollte er überschrieben worden sein, kann er hier erneut heruntergeladen werden. Nach dem Download sollten alle CUDA- und NVIDIA-Pakete vom System entfernt und die virtuelle Maschine neugestartet werden:

sudo apt-get purge 'cuda-*' -y
sudo apt-get purge 'nvidia-*' -y
sudo apt autoremove
sudo reboot

Anschließend kann der heruntergeladene Grid-Treiber installiert werden, für Ubuntu Maschinen ist die Installation von einigen Ubuntu-Tools erforderlich:

sudo apt install build-essential
chmod +x NVIDIA-Linux-<Driver Version>-grid.run
sudo  ./NVIDIA-Linux-<Driver Version>-grid.run --dkms
sudo reboot

Nach der Neuinstallation kann die erfolgreiche Installation mit dem Befehl nvidia-smi überprüft werden. Es sollten eine Statusmeldung ähnlich der folgenden angezeigt werden:

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.105.17   Driver Version: 525.105.17   CUDA Version: 12.0     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|

Im nächsten Schritt muss nun die vGPU lizenziert werden, dazu muss folgender token heruntergeladen und in den nvidia-grid Systemordner verschoben werden:

sudo cd /etc/nvidia/ClientConfigToken
wget https://cloud.uni-koblenz.de/s/Pk9mp9zrHEBTS6m/download/client_configuration_token_09-21-2022-14-04-00.tok
systemctl restart nvidia-gridd

Es kann einige Minuten dauern bis die Lizenz vom Nvidia-Lizenzserver abgerufen wurde. Mittels sudo nvidia-smi -q | grep License lässt sich der Status der Lizenzierung abfragen:

    vGPU Software Licensed Product
        License Status                    : Licensed (Expiry: 2023-11-14 10:22:34 GMT)

Zu beachten ist, dass die Lizenz jeden Tag erneuert wird, bis zum endgültigen Ablaufdatum vom 23.11.2026!

Installation

Zur Installation von CUDA sollte die Verwendung von apt-get (bspw. sudo apt-get install nvidia-cuda-dev) vermieden werden, da dies zum Überschreiben des Grid-Treibers führen kann.

Stattdessen sollten die folgenden Schritte vorgenommen werden:

  1. Mit dem Befehl nvidia-smi die kompatible CUDA Version identifizieren.

  2. Unter https://developer.nvidia.com/ die kompatible run-file für das CUDA-Toolkit herunterladen (die aktuellste Toolkit-Version ist unter https://developer.nvidia.com/cuda-downloads zu finden). Dabei werden die folgenden Optionen ausgewählt:

    • Operating System: Linux
    • Architecture: Über den Befehl lscpu identifizieren
    • Distribution: Über den Befehl lsb_release -a identifizieren
    • Version: Über den Befehl lsb_release -a identifizieren
    • Installer Type: runfile (local)
  3. Die heruntergeladene CUDA run-file ausführbar machen und installieren. Während der Installation sollten der mitgelieferte Treiber unbedingt abgewählt, um zu verhindern, dass der Grid-Treiber überschrieben wird. (Die Option --override ermöglicht die Installation, auch wenn bestimmte Bedingungen wie Compiler-Versionen nicht den Vorgaben entsprechen.) chmod 744 cuda_<CUDA Version>.<Driver Version>_linux.run sudo sh cuda_<CUDA Version>.<Driver Version>_linux.run --override --librarypath=/usr/local/cuda-<CUDA Version>

  4. CUDA zu den Umgebungsvariablen hinzufügen, um die CUDA-Tools und Bibliotheken verwenden zu können:

export PATH="/usr/local/cuda-<CUDA Version>/bin:$PATH"
export LD_LIBRARY_PATH="/usr/local/cuda-<CUDA Version>/lib64:$LD_LIBRARY_PATH"
source .bashrc

Wie kann ich eine neue virtuelle Maschine erstellen?

  • Gehen Sie zum Bereich "Compute" und wählen Sie "Instances".
  • Klicken Sie auf "Add Instance" und folgen Sie den Schritten zur Konfiguration der VM, einschließlich der Auswahl von Template/ISO, Compute Offering, Netzwerken usw.
  • Klicken Sie auf "Launch Virtual Machine", um die VM zu starten.

Wie kann ich eine Konsole für meine virtuelle Maschine öffnen?

Sie können die Konsole entweder über die Detailansicht Ihrer VM oder über die VM-Listenansicht öffnen. Klicken Sie auf den entsprechenden Button, um die Web-Konsole zu starten.

Kann ich SSH-Keys verwenden, um mich auf meine VM einzuloggen?

Ja, Sie können einen SSH Public Key auswählen, der automatisch auf die VM kopiert wird, um den SSH-Zugang zu vereinfachen.

Kann ich die Ressourcenlimits meines Accounts anpassen?

Nein, die Anpassung der Ressourcenlimits für Accounts liegt in der Verantwortung des Cloud-Administrators. Sie können eine Anfrage beim Administrator stellen, um die Ressourcenlimits anzupassen.

Was passiert, wenn ich eine virtuelle Maschine lösche?

Wenn Sie eine VM löschen, wird sie zunächst in den Papierkorb verschoben. Nach einem gewissen Zeitraum wird die VM automatisch endgültig gelöscht. Beachten Sie, dass die Erstellung einer VM mit dem gleichen Namen unmittelbar nach dem Löschen fehlschlagen wird.

Kann ich Snapshots meiner VM erstellen?

Ja, wenn Ihre VM im Status "Running" ist, können Sie die Funktion "Take VM Snapshot" verwenden, um die Konfigurationsdaten der VM zu speichern. Beachten Sie jedoch, dass dabei keine Sicherung der Festplatten der VM durchgeführt wird.

Was sind Instance Groups und Affinity Groups?**

Instance Groups ermöglichen die logische Gruppierung von Instanzen, um eine strukturierte Verwaltung großer VM-Anzahlen zu ermöglichen. Affinity Groups definieren eine Gruppe von VMs, die entweder auf dem gleichen Host gestartet werden sollen oder nicht. Dies kann bei speziellen Anforderungen wie vGPUs relevant sein.

Kann ich die Speichergröße meiner virtuellen Maschine nachträglich ändern?

Ja, Sie können die Speichergröße Ihrer VM nachträglich ändern. Im Zustand "Stopped" können Sie die Option "Scale VM" verwenden, um die zugeordnete CPU-Anzahl und den Arbeitsspeicher anzupassen.

Kann ich meiner VM zusätzliche virtuelle Festplatten hinzufügen?

Ja, Sie können nach der Erstellung Ihrer VM zusätzliche virtuelle Festplatten als Data Disks hinzufügen. Gehen Sie zur Detailansicht Ihrer VM und wählen Sie die Option "Attach Disk" oder ähnliches.

Wie sichere ich meine Daten auf einer virtuellen Maschine?

Es liegt in Ihrer Verantwortung, regelmäßige Backups Ihrer Daten auf der virtuellen Maschine durchzuführen. Sie können Snapshots verwenden, um Konfigurationsdaten zu speichern, aber stellen Sie sicher, dass Sie auch separate Backups Ihrer wichtigen Daten erstellen.

Kann ich die Anzahl der CPU-Kerne meiner VM nachträglich ändern?

Ja, Sie können die Anzahl der CPU-Kerne Ihrer VM nachträglich ändern. Im Zustand "Stopped" können Sie die Option "Scale VM" verwenden, um die zugeordnete CPU-Anzahl anzupassen.

Wie sicher sind meine virtuellen Maschinen in der Cloud?

Die Sicherheit Ihrer virtuellen Maschinen in der Cloud hängt von verschiedenen Faktoren ab, einschließlich der Sicherheitsmaßnahmen und -richtlinien, die von Ihrem Cloud-Anbieter implementiert werden. Stellen Sie sicher, dass Sie die besten Sicherheitspraktiken einhalten, wie z.B. die Verwendung starker Passwörter und regelmäßige Updates der Software.

Kann ich meine virtuelle Maschine in den Ruhezustand versetzen?

Nein, in der Regel unterstützen Cloud-Plattformen den Ruhezustand von virtuellen Maschinen nicht. Sie können jedoch Ihre VM ausschalten, um Ressourcen zu sparen, und sie dann später wieder starten.

Wo kann ich sehen, ob es Wartungsarbeiten an der Cloud-Plattform gibt?

Um Informationen über Wartungsarbeiten an der Cloud-Plattform zu erhalten, können Sie unsere Statusseite unter https://status.sparci.de/ besuchen. Dort finden Sie aktuelle Informationen zu Wartungsarbeiten und eventuellen Problemen mit der Infrastruktur.

Ist in Publikationen ein Acknowledgment für SPARCI erforderlich?

Zwar sind wir mit unserem SPARCI Großgeräteantrag nicht verpflichtet Acknowledgements in Forschungsarbeiten anzugeben, die DFG begrüßt es aber ausdrücklich, da solche Nennungen es ihnen erleichtern, wissenschaftliche Ergebnisse nachzuverfolgen und auch den Nutzen der Förderungen gegenüber den Geldgebern zu dokumentieren.

Wir schlagen demnach die folgende Formulierung vor, um der Förderung von SPARCI durch die DFG Attribut zu zollen:

This research has been supported by the Deutsche Forschungsgemeinschaft (DFG, German Research Foundation) under Research Grant No. 432399058.

bzw. auf Deutsch:

Diese Forschung wurde unterstützt von der Deutschen Forschungsgemeinschaft (DFG) unter der Förderungsnummer 432399058.