HPC-Systeme
Das ZIH betreibt Hochleistungsrechner mit nahezu 100.000 Prozessorkernen, mehr als 500 GPUs sowie einer flexiblen Speicherhierarchie mit mehr als 40 PB Speicherplatz. Die HPC-Systeme bieten insbesondere im Bereich Data Analytics und maschinelles Lernen und für die Verarbeitung besonders großer Datensätze ein optimales Forschungsumfeld, ist aber ebenso für hochskalierbare, daten- und rechenintensive Anwendungen sehr gut geeignet.
Durch gemeinsame Dateisysteme können Nutzer:innen leicht zwischen den auf verschiedene Aufgaben spezialisierten Teilkomponenten wechseln. Vorinstallierte Software-Umgebungen ermöglichen einen schnellen Start. Um Zugang zu unseren HPC-Ressourcen zu erhalten, ist ein kurzer Projektantrag nötig. Über das NHR-Zentrum NHR@TUD stehen die HPC-Systeme Nutzer:innen aus ganz Deutschland zur Verfügung.
Inhaltsverzeichnis
Für daten- und rechenintensive HPC-Anwendungen
Der Hochleistungsrechner „Barnard“ der Firma Atos/Eviden stellt den größten Teil der am ZIH verfügbaren Rechenleistung bereit, insbesondere für hochparallele, daten- und rechenintensive HPC-Anwendungen.
Typische Anwendungen: FEM-Simulationen, CFD-Rechnungen mit Ansys oder OpenFOAM, Molekulardynamik mit GROMACS oder NAMD, Berechnungen mit Matlab oder R
- Ingesamt mehr als 60.000 Prozessorkerne (Intel „Sapphire Rapids“)
- 104 Prozessorkerne und 512 GB RAM je Knoten
- Dokumentation
Für HPC Data Analytics und maschinelles Lernen
Für High Performance Computing / Data Analytics (HPC-DA) können verschiedene Technologien flexibel zu individuellen und effizienten Forschungsinfrastrukturen kombiniert werden. Speziell für Anwendungen im Bereich Machine Learning und Deep Learning sind 192 leistungsfähige Nvidia V100 GPUs installiert. Dafür können Ressourcen auch interaktiv, z.B. in Form von Jupyter-Notebooks genutzt werden. Für Datenanalysen auf CPUs steht ein Cluster mit hoher Speicherbandbreite zur Verfügung. Zum effizienten Zugriff auf große Datensätze werden 2 Petabyte Flash-Speicher mit einer Gesamtbandbreite von etwa 2 Terabyte/s bereitgestellt. Für Anwender:innen in ScaDS.AI stehen zusätzlich 312 Nvidia A100 GPUs speziell für maschinelles Lernen zur Verfügung.
Typische Anwendungen: Training neuronaler Netze mit PyTorch (Deep Learning), Datenanalysen mit Big-Data-Frameworks wie Apache Spark
- 39 AMD Rome Knoten, je 8 Nvidia A100 GPUs für maschinelles Lernen (vorrangig für ScaDS.AI)
- 32 IBM Power 9 Knoten, je 6 Nvidia V100 GPUs für maschinelles Lernen
- 192 AMD Rome Knoten, je 128 Kerne, 512 GB RAM mit 400 GB/s Bandbreite
- 2 PB schneller Flash-Speicher (NVMe)
- 10 PB Archiv mit Zugriff per S3, Cinder, NFS, QXFS
-
Für die Verarbeitung besonders großer Datensätze
Das Shared-Memory-System HPE Superdome Flex ist für besonders datenintensive Anwendungsfälle geeignet, z.B. um sehr große Datensätze komplett im Hauptspeicher oder im sehr schnell zugreifbaren NVMe-Speicher verarbeiten zu können. Als Teil von HPC-DA steht es ebenfalls Nutzer:innen aus ganz Deutschland zur Verfügung.
Typische Anwendungen: Anwendungen, welche einen großen gemeinsam Hauptspeicher voraussetzen, wie z.B. Genomanalyse
- Shared-Memory-Verbund aus 32 Intel CascadeLake mit zusammen 896 Kernen
- 48 TB Hauptspeicher in einem gemeinsamen Adressraum
- 400 TB NVMe-Speicherkarten als sehr schneller, lokaler Storage
- Dokumentation