Erstellen von HPC-kompatiblen Snakemake-Datenanalyse-Workflows
NHR Tutorial (Vor-Ort)
Donnerstag, 18.04.2024, 9:00 - 18:00 Uhr
Speaker: Dr. Christian Meesters -- NHR Süd-West, JGU Mainz
Dieses Tutorial vermittelt den Teilnehmern die wesentlichen Fähigkeiten zum Entwerfen und Implementieren von High-Performance Computing (HPC)-kompatiblen Datenanalyse-Workflows mit dem Snakemake Workflow Management System. Durch praktische Übungen und praktische Demonstrationen lernen die Teilnehmer, wie sie die Leistungsfähigkeit dieses Workflow-Managers nutzen können, um HPC-Ressourcen effektiv zu nutzen und die Reproduzierbarkeit ihrer Datenanalyse-Workflows sicherzustellen. Das Snakemake-Workflow-System wird häufig in der Bioinformatik, der Experimentalphysik und anderen Datenanalysebereichen eingesetzt.
Agenda
-
Workflow-Design und -Implementierung: Schritt-für-Schritt-Anleitung zum Entwerfen und Implementieren von HPC-kompatiblen Workflows mit Snakemake, einschließlich Best Practices für Parallelisierung und Ressourcenmanagement.
-
Leistungsoptimierung: Techniken zur Optimierung der Workflow-Leistung auf HPC-Clustern, einschließlich Ressourcenzuweisung und Vermeidung von I/O-Konflikten.
-
Gewährleistung der Reproduzierbarkeit: Strategien zur Gewährleistung der Reproduzierbarkeit und Skalierbarkeit in Datenanalyse-Workflows.
-
Fallstudien und praktische Beispiele: Fallstudien und praktische Beispiele aus der Praxis, die die Anwendung von HPC-kompatiblen Snakemake-Workflows in verschiedenen Datenanalyseszenarien demonstrieren.
-
Einführung in Snakemake und HPC: Überblick über das Workflow-Management-System Snakemake und die Bedeutung der HPC-Konformität in Datenanalyse-Workflows.
-
Einrichten einer HPC-Umgebung: Anleitung zur Konfiguration von Snakemake für HPC-Umgebungen, einschließlich Überlegungen zu Batch-Systemen und Jobplanung.
-
Veröffentlichen und Registrieren von Workflows im Snakemake-Workflow-Katalog für bessere Sichtbarkeit und Zitierung.
-
Fragen & Antworten und Fehlerbehebung: Gelegenheit für Teilnehmer, Fragen zu stellen, sich um Klärung zu bemühen und während des Tutorials aufgetretene Herausforderungen zu beheben.
Handouts
Die Teilnehmenden erhalten die Kursfolien (Präsentation).
Lernerfolge
Am Ende dieses Tutorials werden die Teilnehmer:
- Verstehen Sie die Prinzipien der HPC-Compliance in Datenanalyse-Workflows.
- Sie beherrschen die Konfiguration von Snakemake für HPC-Umgebungen und die effektive Nutzung von HPC-Ressourcen.
- In der Lage sein, HPC-konforme Datenanalyse-Workflows mit Snakemake zu entwerfen, zu implementieren und zu optimieren.
- Verfügen Sie über die Fähigkeiten, die Workflow-Leistung zu optimieren, die Reproduzierbarkeit sicherzustellen und häufige Herausforderungen in HPC-Umgebungen zu beheben.
- Gewinnen Sie Erkenntnisse aus realen Fallstudien und praktischen Beispielen, um HPC-konforme Snakemake-Workflows effektiv in Ihren eigenen Forschungsprojekten anzuwenden.
Voraussetzungen
-
Fähigkeit, in der Shell (Bash) für grundlegende Dateibearbeitung und Befehlsausführung zu navigieren.
-
Möglichkeit, sich für den Fernzugriff über SSH (Secure Shell) bei Remote-Servern anzumelden
-
Vertrautheit mit grundlegenden Konzepten von HPC, einschließlich Jobplanung, parallelem Rechnen und Ressourcenzuweisung, ist von Vorteil.
-
Grundkenntnisse der Skriptsprache Python sind von Vorteil, einschließlich Variablen, Datenstrukturen, Kontrollflussanweisungen und Funktionen.
Registrierung
Link zur Registrierung: https://event.zih.tu-dresden.de/nhr/snakemake
Die Zugangsdaten erhalten Sie kurz vor der Veranstaltung per Email an Ihre registrierte E-Mail-Adresse.
Weitere Informationen
Kurssprache: Englisch
Zielgruppe: HPC Anfänger / HPC Nutzer
Veranstaltungsort:
Zentrum für Informationsdienste und Hochleistungsrechnen (ZIH), TU Dresden
Willers-Bau, PC-Pool WIL-A119, 0. Etage
Zellescher Weg 12
01069 Dresden
Deutschland
Für Fragen steht Ihnen Anja Gerbes () zur Verfügung.