HPC-Systeme
Das ZIH betreibt Hochleistungsrechner mit mehr als 100.000 Prozessorkernen, mehr als 800 GPUs sowie einer flexiblen Speicherhierarchie mit mehr als 40 PB Speicherplatz. Die HPC-Systeme bieten insbesondere im Bereich Data Analytics und maschinelles Lernen und für die Verarbeitung besonders großer Datensätze ein optimales Forschungsumfeld, ist aber ebenso für hochskalierbare, daten- und rechenintensive Anwendungen sehr gut geeignet.
Durch gemeinsame Dateisysteme können Nutzer:innen leicht zwischen den auf verschiedene Aufgaben spezialisierten Teilkomponenten wechseln. Vorinstallierte Software-Umgebungen ermöglichen einen schnellen Start. Zudem können die HPC-Ressourcen auch interaktiv, z.B. in Form von Jupyter-Notebooks genutzt werden. Um Zugang zu unseren HPC-Ressourcen zu erhalten, ist ein kurzer Projektantrag nötig. Über das NHR-Zentrum NHR@TUD stehen die HPC-Systeme kostenfrei Wissenschaftler:innen aus ganz Deutschland zur Verfügung.
Inhaltsverzeichnis
Für daten- und rechenintensive HPC-Anwendungen
Der Hochleistungsrechner „Barnard“ der Firma Atos/Eviden stellt mit ca. 75.000 Prozessorkernen den größten Teil der am ZIH verfügbaren CPU-Rechenleistung bereit, insbesondere für hochparallele, daten- und rechenintensive HPC-Anwendungen.
Typische Anwendungen: FEM-Simulationen, CFD-Rechnungen mit Ansys oder OpenFOAM, Molekulardynamik mit GROMACS oder NAMD, Berechnungen mit Matlab oder R
- Insgesamt 720 Rechenknoten
- 104 Prozessorkerne (Intel „Sapphire Rapids“) und 512 GB RAM je Knoten
- 90 Konten mit 1 TB RAM
- 40 PB paralleles Dateisystem (nutzbar für alle HPC-Systeme)
- Dokumentation
Für HPC Data Analytics und maschinelles Lernen
Capella
Der GPU-Cluster „Capella“ der Firma Megware stellt insbesondere für Anwendungen im Bereich Machine Learning und Deep Learning 576 leistungsfähige Nvidia H100 GPUs bereit. Exklusiv für Capella ist ein schneller Zwischenspeicher für datenintensive Anwendungen mit 1 Petabyte Kapazität und einer Bandbreite von über 1 Terabyte/s installiert.
Typische Anwendungen: Training neuronaler Netze mit PyTorch (Deep Learning), HPC-Simulationen auf GPUs
- 144 Knoten mit je 2 AMD-CPUs, 4 GPUs und 768 GB DDR5-RAM
-
insgesamt 576 NVIDIA H100 mit je 94 GB HBM2e-Speicher
-
1 PB schneller Zwischenspeicher (WekaIO)
- Dokumentation
HPC-DA
Für High Performance Computing / Data Analytics (HPC-DA) können verschiedene Technologien flexibel zu individuellen und effizienten Forschungsinfrastrukturen kombiniert werden. Für Machine Learning sind 192 Nvidia V100 GPUs installiert. Für Datenanalysen auf CPUs steht ein Cluster mit hoher Speicherbandbreite zur Verfügung. Für Anwender:innen in ScaDS.AI stehen zusätzlich 312 Nvidia A100 GPUs speziell für maschinelles Lernen zur Verfügung.
Typische Anwendungen: Training neuronaler Netze mit PyTorch (Deep Learning), Datenanalysen mit Big-Data-Frameworks wie Apache Spark
- „Alpha Centauri“: 39 AMD Rome Knoten, je 8 Nvidia A100 GPUs für maschinelles Lernen (vorrangig für ScaDS.AI)
- 32 IBM Power 9 Knoten, je 6 Nvidia V100 GPUs für maschinelles Lernen
- „Romeo“: 192 AMD Rome Knoten, je 128 Kerne, 512 GB RAM mit 400 GB/s Bandbreite
-
Für die Verarbeitung besonders großer Datensätze
Das Shared-Memory-System HPE Superdome Flex „Julia“ ist für besonders datenintensive Anwendungsfälle geeignet, z.B. um sehr große Datensätze komplett im Hauptspeicher oder im sehr schnell zugreifbaren NVMe-Speicher verarbeiten zu können. Als Teil von HPC-DA steht es ebenfalls Nutzer:innen aus ganz Deutschland zur Verfügung.
Typische Anwendungen: Anwendungen, welche einen großen gemeinsam Hauptspeicher voraussetzen, wie z.B. Genomanalyse
- Shared-Memory-Verbund aus 32 Intel CascadeLake mit zusammen 896 Kernen
- 48 TB Hauptspeicher in einem gemeinsamen Adressraum
- 400 TB NVMe-Speicherkarten als sehr schneller, lokaler Storage
- Dokumentation