Eckdaten und Allgemeines

Die „Socio-Physical Advanced Research Cloud Infrastructure“ (SPARCI) ist ein von der DFG gefördertes Großgerät am Campus der Universität Koblenz, das einen leistungsstarken Computercluster mit einer angeschlossenen Long-Range-Wide-Area-Network-Infrastruktur (LoRaWAN-Infrastruktur) für Forschende und Lehrende zur Verfügung stellt. Die leistungsstarke Infrastruktur ermöglicht umfangreiche Forschungsvorhaben zur Gewinnung, Speicherung, Analyse und Nutzung großer Datenmengen (Big Data) in soziotechnischen (Mensch-Maschine) und cyberphysischen (mechanische und elektronische Dinge) Systemen. Datenquellen und Datenempfänger stammen aus der Forschung zu Informationssystemen in Unternehmen, in der öffentlichen Verwaltung und dem öffentlichen World Wide Web. Das Projekt stößt in neue Gebiete der intelligenten Verknüpfung von realen und physischen Objekten mit ihrer virtuellen Umgebung und deren Nutzung in den vorgenannten Domänen vor.

Die angestrebte Forschung hat einen sehr hohen Bedarf an Rechenleistung und Speicherkapazität, die für die Erforschung wachsender Datensätze und die Ausführung von Methoden der künstlichen Intelligenz und des maschinellen Lernens erforderlich sind. Insbesondere die Entwicklung von Deep Learning Algorithmen und neuronalen Netzen führen zu einem neuen Bedarf an GPU-basierter Rechenleistung, mit der sich die benötigten Rechenzeiten für die Verarbeitung der existierenden und wachsenden Datensätze auf ein nutzbares Maß reduzieren lassen. In der folgenden Tabelle sind die wesentlichen Eckdaten der neuen Cloud beschrieben:

Umfang der Cloud

Auf mittlerweile zwei Rechenzentren werden Computing-, KI- und Speicherressourcen für die Nutzung in der SPARCI-Cloud bereitgestellt. Die folgende Tabelle zeigt eine Übersicht über Anzahl der Server und Spezifikationen:

Servertyp Anzahl Spezifikationen (grob)
Computing 26 - AMD EPYC Rome CPUs mit 786 Kerne/1.536 Threads à 2,8 GHz
- AMD EPYC Milan CPUs mit 192 Kerne/384 Threads à 2,85 Ghz
- Intel Xeon mit 48 Kerne/ 96 Threads à 3,8 GHz
- 19.200 GB RAM
Storage 13 - HDD Storage für Archivierung/Large Storage mit ~1.250 TB Speicherplatz
- NVme Storage für High-Performance mit ~120TB Speicherplatz
KI/Inferenz 7 - 13x NVIDIA A100 40GB und 80GB GPUs
- 4x NVIDIDA H100 80GB GPUs
- 2x NVIDIA H100 NVL 92GB GPUs
- 1x AMD Instinct MI210 64GB Datacenter GPU
Management-Server 5 Für den Betrieb der Cloud
Enterprise Switch 6 Je Switch stehen 48 x 10Gbit/s Ports und 6 x 100Gbit/s Ports zur Verfügung

Skalierbarkeit

  • Vonseiten der Software: Ja, Apache CloudStack ist für den Betrieb mehrerer Tausend Server für die Bereitstellung von Computing-Ressourcen konzipiert

  • Vonseiten der Infrastruktur: Nein, die Server wurden im Großgeräteantrag einmalig beschafft und stellen somit eine begrenzte Menge von Ressourcen zur Verfügung

LoRaWAN-Infrastruktur

Zum Sammeln von Sensordaten beinhaltet das Großgerät eine LoRaWAN-Infrastruktur, die sowohl stationär am Campus der Universität installiert wird, als auch in Forschungsprojekten außerhalb des Universitätsgeländes nutzbar sein wird. Diese Infrastruktur ermöglicht eine drahtlose, energieeffiziente, bidirektionale Übertragung von beispielsweise Sensordaten über Entfernungen von mehreren Kilometern und erlaubt zudem eine Geolokation der Sender mittels Multilateration und Time-Difference-of-Arrival-Verfahren über die Ankunftszeiten der Datenpakete an mehreren Empfangsgeräten.

Forschungsschwerpunkte

Die involvierten Forschungsgruppen verfügen über umfangreiche Vorarbeiten in den Bereichen maschinelles Lernen, innovative Ansätze der Web Science, Kollaborationssysteme, Internet of Things und IT-Konzepte in der öffentlichen Verwaltung. Die spezielle Kombination der Spezialisierungen der beteiligten Forschungsgruppen ermöglicht den notwendigen interdisziplinären, holistischen Ansatz. Zur Wahrung von Compliance-Aspekten, wird im Rahmen des Projekts ein Konzept zur Speicherung großer Mengen heterogener Sensordaten unter Berücksichtigung von Aspekten zum Datenschutz, Datensicherheit und der Privatsphäre von Personen entwickelt. Bei der Erhebung jeglicher Sensordaten wird sowohl technisch als auch konzeptionell darauf geachtet, dass Rückschlüsse auf die Identität oder das Bewegungsprofil einzelner Personen ausgeschlossen sind.

Mit dem SPARCI-Projekt wurden diverse Hardware-Komponenten für die eingangs erwähnten Anforderungen beschafft. Die Hardware lässt sich grob in die Bereiche Computercluster (SPARCI-Cloud) und IoT-Infrastruktur unterteilen. Bei der SPARCI-Cloud handelt es sich um eine Infrastructure as a Service Cloud-Infrastruktur, die mithilfe von Apache CloudStack installiert und eingerichtet wurde und ein Self-Service-Portal für die Anwender zur Verfügung stellt.

Der Fokus dieses Dokuments/Anleitung liegt in der Beschreibung des Computerclusters und der darauf in Betrieb genommen IaaS-Cloud-Software. Im nächsten Abschnitt wird der Aufbau der neuen SPARCI-Cloud-Infrastruktur und -Software für Forschung und Lehre näher beschrieben.

Cloud-Administratoren