29.04.2024
Innovationsbooster an der TU Dresden: Verbund aus drei neuen Supercomputern für die Forschung
Das Zentrum für Informationsdienste und Hochleistungsrechnen (ZIH) der Technischen Universität Dresden (TUD) hat am 23. April 2024 das hochspezialisierte neue Supercomputing-System „Barnard“ sowie erste Komponenten der Rechnerarchitektur „SpiNNaker2“ mit einem Festakt eingeweiht. Zugleich wurde mit „Capella“ auch die Beschaffung eines weiteren Computing-Clusters vorgestellt.
Als Gesamtsystem adressiert das Trio die Anforderungen an hohe Rechenleistung in enger Verbindung mit großen Datenmengen ebenso wie spezielle Lösungen für die Bereiche Künstliche Intelligenz und maschinelles Lernen und bedient damit den aktuellen Bedarf der Forschung. Als Schlüsseltechnologie für innovative Entwicklungen in einer Vielzahl von Wissenschaftsgebieten bieten die Systeme im Rahmen des NHR-Verbundes (Nationales Hochleistungsrechnen) exzellente Voraussetzungen, um kompetitiv neue Wege zu gehen und schnelle Lösungen für die Künstliche Intelligenz umzusetzen.
Während mit Barnard ein CPU-basierter Hochleistungsrechner (CPU: Central Processing Unit) insbesondere für datenintensive Anforderungen bereitsteht, ergänzt die aktuelle Beschaffung Capella einen strategisch wichtigen Aufwuchs an Rechenkapazität für maschinelles Lernen und wird darüber hinaus auch viele andere wissenschaftliche Anwendungen im Bereich Simulation und Data Analytics beschleunigen, die für die GPU-Architektur optimiert sind (GPU: Graphics Processing Unit). Das ZIH setzt im Hochleistungsrechnen konsequent auf Warmwasserkühlung für seine Systeme, womit eine hohe Effizienz in der Kühlung erreicht wird. Entsprechend sind die beiden Systeme auch in das nachhaltige Konzept der Abwärmenutzung eingebunden. Neben der Beheizung der umliegenden Gebäude werden Überschüsse hier zukünftig zudem in das Fernwärmenetz eingespeist. Das Systemdesign von SpiNNaker2 ermöglicht mit seinem einzigartigen hybriden KI-Framework Echtzeit-KI in einem noch nie dagewesenen Ausmaß. Die Konfiguration des Systems zeichnet sich durch eine hohe Energieeffizienz aus.
Die feierliche Einweihung fand im Beisein zahlreicher Gäste aus Politik, Wissenschaft und Industrie statt. In Ihren Grußworten unterstrichen die Rektorin der TUD, Prof.in Ursula Staudinger, und der sächsische Staatssekretär für Digitale Verwaltung und Verwaltungsmodernisierung, Prof. Thomas Popp, die Bedeutung von Technologien wie Supercomputing und KI für die Wissenschaft und für den Standort.
„Die Technische Universität Dresden ist einer der Kompetenzleuchttürme für Digitalisierung in Deutschland. Als eines von neun Zentren des Nationalen Hochleistungsrechnens ermöglichen wir es, trotz wachsender Datenintensität und -komplexität in den Wissenschaften, die Grenzen des Wissens weiter zu verschieben“, unterstrich Prof.in Staudinger. „Die neuen Supercomputingsysteme an der TUD sind ein wichtiger Meilenstein für das datengetriebene Hochleistungsrechnen und die Weiterentwicklung von Anwendungen der Künstlichen Intelligenz.“
In einem begleitenden Wissenschaftlichen Kolloquium stellten drei Wissenschaftler:innen aus der Materialwissenschaft, der Astronomie und der Tumorforschung ihre Forschung vor, die durch die Nutzung von Hochleistungsrechnern ermöglicht bzw. befördert wird. In ihren Präsentationen unterstrichen sie die Bedeutung von Supercomputing und KI für die Forschung in ihren Fachgebieten. (Link zum Kolloquium: https://tu-dresden.de/zih/die-einrichtung/termine/zih_kolloquium/kolloquium-zur-hpc-systemeinweihung-2024)
„Drängende aktuelle Fragestellungen der Wissenschaft sind auf komplexe Berechnungen, Modelle und Auswertungen angewiesen. Ob Klimabetrachtungen, medizinische Forschung oder Ingenieurwissenschaften: Mit den Möglichkeiten des neuen Systems – Technologien und Infrastruktur, Softwarelösungen, innovative Methoden sowie Expertise – eröffnen sich neue Dimensionen für eine Vielzahl von Forschungsgebieten“, betonte Prof. Wolfgang E. Nagel, Direktor des ZIH, und ergänzte: „Die Bereitstellung der Ressourcen und die Adressierung der damit einhergehenden Herausforderungen, wie zum Beispiel Souveränität, neue Methoden der Künstlichen Intelligenz oder auch eigene generative Sprachmodelle, haben strategische Bedeutung für den Wissenschaftsstandort Deutschland.“
Vorstellung der Systeme
Barnard
Das Supercomputing-Cluster Barnard der Firma Eviden (https://eviden.com/de-de/) mit schnellen Intel-CPUs bietet insgesamt mehr als 60.000 Rechenkerne. Gemeinsam mit einem schnellen InfiniBand-Verbindungsnetzwerk und einem großen hierarchischen Speichersystem (mehr als 40 Petabyte) erlaubt es eine flexible Bereitstellung von hoher Rechenleistung für datenintensives Rechnen. Dies ist beispielsweise grundlegend für die Erforschung von Viren oder für die Auswertung astrometrischer Daten der GAIA-Mission. Es ermöglicht nie dagewesene Einblicke in die Struktur und Entwicklung der Milchstraße, unterstützt die Grundlagenforschung für neue Materialien, leistungsfähigere Batteriespeicher, effizientere und umweltfreundlichere Prozesse für die chemische Industrie und vieles mehr.
Das System wurde zum Großteil durch das Nationale Hochleistungsrechnen finanziert (NHR@TUD; zu gleichen Teilen durch das BMBF und den Freistaat Sachsen) und steht seit Herbst 2023 im Rahmen des NHR-Verbundes deutschlandweit zur wissenschaftlichen Nutzung bereit. Das Exzellenzcluster Physics of Life (PoL) der TUD beteiligte sich ebenfalls an der Finanzierung, um dedizierte Rechenleistung für seine Forschung zu erhalten.
Steckbrief Barnard | |
Flexible, hohe Rechenleistung für datenintensives Hochleistungsrechnen |
|
Spitzenleistung |
ca. 4,2 Petaflop/s |
Rechenknoten |
630 Knoten mit je 2 CPUs und 512 GB DDR5-Hauptspeicher |
Prozessoren |
insgesamt 1.260 Intel Xeon Platinum 8470 „Sapphire Rapids“ (je 52 Kerne) |
Rechenkerne |
insgesamt 65.520 |
Speichersystem |
20 PB schneller SSD/HDD-Speicher mit 420 GB/s Bandbreite, |
Kosten |
13 Mio. Euro |
Verfügbarkeit |
in Betrieb seit Herbst 2023 |
SpiNNaker2
Die „Spiking Neural Network Architecture“ SpiNNaker bezeichnet eine Rechnerarchitektur, die auf die Simulation neuronaler Netze optimiert ist. Dabei werden 5 Mio. ARM-Prozessorkerne und diverse spezielle Co-Prozessoren in einer für Kommunikation und Speicherzugriff optimierten Systemarchitektur integriert. SpiNNAker2 stellt damit das größte System für biologisch inspirierte Künstliche Intelligenz weltweit dar. Mit einem Betrieb am minimalen Energiepunkt der Verarbeitungseinheiten bei 0,50 V und adaptiver, feingranularer Lastregelung nutzt SpiNNaker2 die innovativen Stromspareigenschaften der Flagship-Technologie 22FDX von Globalfoundries Dresden. Das neuromorphe Rechnersystem wurde innerhalb des EU-Flagship-Projektes „Human Brain“ gemeinsam entwickelt von TUD und der University of Manchester, unter Beteiligung der TUD-Ausgründungen Racyics GmbH und SpiNNcloud Systems GmbH. Neben der synergetischen Kombination diverser KI-Formen sowie der Echtzeitfähigkeit integriert SpiNNaker2 auch quantum-inspiriertes Berechnen mit Zufällen. Diese einzigartige Kombination von Funktionen ermöglicht dem System Innovationssprünge in diversen Anwendungsgebieten, z.B. eine um den Faktor 10 bis 100 beschleunigte Wirkstoffsuche für personalisierte Medizin. SpiNNaker2 wurde federführend von Prof. Christian Mayr, Inhaber der Professur für Hochparallele VLSI-Systeme und Neuromikroelektronik der TUD, getrieben und von ScaDS.AI Dresden/Leipzig unterstützt. Erste Einheiten sind aktuell im Probebetrieb, nach Fertigstellung der Installation im Sommer 2024 soll das System ab Herbst einem weltweiten Nutzerkreis zur Verfügung stehen.
Finanziell unterstützt wurde das Tapeout durch eine EFRE-Förderung und den Freistaat Sachsen im Projekt „SpiNNcloud“ (Förderkennzeichen: 100373652). (Link zum Projekt: https://spinncloud.com/)
Steckbrief SpiNNaker2 | |
Cloudbasiertes System für bioinspirierte KI |
|
Speicher |
8.6 TB pro Rack (43 TB komplett) |
Anzahl Neuronen/Synapsen |
10 Mrd. Neuronen, 10 Bill. Synapsen |
Rechenkerne |
5 Mio. ARM-Prozessorkerne |
Kosten |
9 Mio. Euro |
Verfügbarkeit |
zum Teil bereits installiert, Fertigstellung im Sommer 2024 |
Capella
Das Capella-Cluster, für dessen Aufbau Ende 2023 der Auftrag an das sächsische Unternehmen MEGWARE (https://www.megware.com/) erteilt wurde, wird mit mehr als 120 Knoten ausgestattet, von denen jeder über vier H100-Beschleuniger von NVIDIA und zwei AMD-Prozessoren verfügt. Darüber hinaus wird ein 1,1 PB großes Speichersystem des amerikanischen Softwareherstellers WekaIO mit hohen Bandbreiten von bis zu 1,9 TB/s lesend datenintensive Anwendungen als “Burst-Buffer” beschleunigen. Mit der Kombination aus mehr als 480 schnellen KI-Beschleunigern und dem schnellen Zwischenspeicher zur Bereitstellung der Daten ist Capella insbesondere für Anwendungen im Bereich Künstliche Intelligenz ausgerichtet. So wird Capella beispielsweise einen wichtigen Beitrag für das Training europäischer Sprachmodelle im Rahmen der Projekte OpenGPT-X und Gaia-X leisten oder die medizinische Forschung beim Einsatz neuer Methoden des maschinellen Lernens – beispielsweise für die Krebsdiagnose und zur Entwicklung neuer Medikamente – unterstützen.
Das Cluster wird vielfältige Möglichkeiten zum Messen des Energiebedarfs der Komponenten bieten und damit gezielt die Forschung zur Optimierung der Effizienz unterstützen. Mit der Integration von Capella in die vorhandene Infrastruktur im Rechenzentrum werden im Gesamtkomplex auch die Dateisysteme von Barnard effizient angebunden. Das System soll ab dem dritten Quartal 2024 für Wissenschaftler:innen aus ganz Deutschland zur Verfügung stehen.
Finanziert wird das Cluster durch das Nationale Hochleistungsrechnen (NHR@TUD; zu gleichen Teilen durch das BMBF und den Freistaat Sachsen) sowie durch das KI-Kompetenzzentrum ScaDS.AI Dresden/Leipzig.
Steckbrief Capella | |
Rechenkapazität für Maschinelles Lernen, Data Analytics und HPC-Simulationen |
|
Spitzenleistung |
ca. 33 Petaflop/s (FP64-Tensor), ca. 0,98 Exaflop/s (FP16-Tensor) |
Rechenknoten |
124 mit je 2 CPUs, 4 GPUs und 768 GB DDR5-Hauptspeicher |
Prozessoren |
248 AMD Epyc 9334 „Genoa“ (je 32 Kerne) |
GPU-Beschleuniger |
496 NVIDIA H100 mit je 94 GB HBM2e-Speicher |
Speichersystem |
1,1 PB SSD-Speicher mit 1,9 TB/s Bandbreite (lesend), |
Kosten |
12 Mio. Euro |
Verfügbarkeit |
Nutzerbetrieb ab dem dritten Quartal 2024 |
Weitere Informationen
Zum ZIH
Das Department des 2021 gegründeten CIDS – Center for Interdiciplinary Digital Sciences betreibt die zentralen IT-Infrastrukturdienste und Server, inkl. HPC-Systeme. Darüber hinaus führt das ZIH umfangreiche eigene Forschungs- und Entwicklungsarbeiten durch und ist national sowie international mit Wissenschaftseinrichtungen und Partnern aus Industrie und Wirtschaft eng vernetzt. Seit 2021 bietet das ZIH als Partner NHR@TUD im bestehenden NHR-Verbund (Nationales Hochleistungsrechnen) Zugang zu dedizierten Supercomputing-Systemen sowie die erforderliche Expertise und Unterstützung für deren wissenschaftlichen Einsatz an. Ziel von NHR ist es, Forschenden deutscher Hochschulen die für ihre wissenschaftliche Arbeit benötigte Rechenkapazität kostenfrei zur Verfügung zu stellen, sie bei der Nutzung dieser Ressourcen mit komplexen Algorithmen und KI-Methoden zu unterstützen sowie ihre Kompetenzen zur effizienten Nutzung der Systeme zu stärken. Methoden des Maschinellen Lernens und der Künstlichen Intelligenz, eng verbunden mit der Auswertung von großen Datenmengen, gehören seit langer Zeit zur strategischen Ausrichtung des ZIH – sei es mit dem Aufbau des dafür gegründeten Kompetenzzentrum ScaDS.AI Dresden/Leipzig in enger Kooperation mit der Universität Leipzig oder der erfolgreichen Bewerbung als NHR-Zentrum für das deutsche Wissenschaftssystem. Link: https://tu-dresden.de/zih
Zur Professur für Hochparallele VLSI-Systeme und Neuromikroelektronik
Die Forschungsschwerpunkte der Professur liegen im Design von Systems-on-chip in Deep-submicron (aktuell bis 22nm), Sensor-/Aktorschnittstellen, Signalverarbeitung und KI-Algorithmik. Anwendungen der an der Professur entwickelten Systeme liegen in der Nachbildung von Gehirnfunktionalität, Multi-Prozessor-Chips im industriellen Kontext (Telekommunikation, Smart City/Smart Farming, autonomes Fahren, Industrie 4.0) sowie für KI-Beschleuniger und Neuroimplantate. Die Professur hat aktuell vier Spinoffs mit 250 Beschäftigten (Racyics, Coinbau, Siliconally, SpiNNcloud Systems). Das Spinoff Racyics ist die größte unabhängige Pure-Play Chipdesign-Firma Europas und erreicht Weltrekorde, z.B. bei Ultra-Low-Energy-Mikrokontrollern. Christian Mayr ist PI im 5G Lab Germany, in den Exzellenzclustern CeTi und cfaed, im 6G life Cluster, im KI-Kompetenzzentrum ScaDS.AI Dresden/Leipzig und in diversen EU-Großprojekten. Ein Edge-System der Professur hat kürzlich den ersten Preis im KI-Hardware-Wettbewerb des BMBF gewonnen (1 Mio. Euro Preisgeld). Link: https://tu-dresden.de/ing/elektrotechnik/iee/hpsn
Kontakte für Medien
Zu Barnard und Capella:
Prof. Wolfgang E. Nagel
Direktor des Zentrums für Informationsdienste und Hochleistungsrechnen (ZIH)
TU Dresden
Center for Interdisciplinary Digital Sciences (CIDS)
Zu SpiNNaker2:
Prof. Christian Mayr
TU Dresden
Professur Hochparallele VLSI-Systeme und Neuromikroelektronik