Datenanalyse - Datenaufbereitung
ScaDS.AI/NHR-Tutorial (Hybrid)
Mittwoch, 31.08.2022, 14:00 - 18:00 Uhr
Vortragende: Matthias Täschner, Timo Adameit, Jan Ewald, Thomas Burghardt
Bei der Datenanalyse werden statistische Methoden systematisch angewendet, um Zusammenhänge in mitunter sehr großen Datensätzen erkennen und daraus neues Wissen gewinnen zu können. Die in der Regel durchzuführenden Prozessschritte erfordern den Einsatz computergestützter Methoden. Ein relevanter Prozessschritt ist die Datenaufbereitung (Data Preparation), um deren Qualität für die anschließende Analyse zu erhöhen. In diesem Training werden anhand eines Beispiel-Datensatzes verschiedene Aspekte der Datenaufbereitung, sowohl theoretisch betrachtet als auch gemeinsam in einem Jupyter-Notebook praktisch erarbeitet. Betrachtet wird die Restrukturierung und Indexierung der Daten, der Umgang mit fehlenden Werten und Ausreißern sowie ein abschließender Vergleich der Analyse-Ergebnisse basierend auf verschiedenen Varianten der Vorverarbeitung.
Agenda
-
Einführung zu allgemeinen Aspekten der Datenanalyse und dem Prozessschritt der Datenaufbereitung (10%)
-
Tutorial zur Datenaufbereitung in einem vorbereiteten Jupyter-Notebook an einem Beispiel-Datensatz (90%)
Handouts
Folgende Unterlagen (Folien, Beispielanwendungen) werden den Teilnehmer:innen zur Verfügung gestellt:
-
PDF zur „Einführung Datenanalyse“
-
CSV-Datei (betriebswirtschaftliche Daten)
-
Jupyter-Notebook für die Arbeit mit Pandas
Voraussetzungen
-
Fortgeschrittene Kenntnisse in Python 3.x (wünschenswert)
-
Grundkenntnisse in Python-Bibliotheken Pandas und numpy, falls nicht vorhanden, wird vorher das PANDAS-Tutorial empfohlen
-
Grundkenntnisse im Umgang mit Jupyter-Notebook
Lernerfolge
Nach der Schulung kennen die Teilnehmenden die von den Trainierenden ausgewählten theoretischen und praktischen Sprachkonzepte von Python – mit Pandas und numpy - zur Datenvorbereitung.
HPC-Certification Forum Links
Folgende Links zeigen die Fähigkeitsbeschreibungen, die vermittelt werden sollen.
Registrierung
Link zur Registrierung: https://event.zih.tu-dresden.de/nhr/data-prep
Die Registrierung schließt am 19.08.2022. Das NHR-Tutorial ist auf 15 Teilnehmende (Verhältnis gerne 65% physisch, 35% online) beschränkt.
Die Zugangsdaten erhalten Sie kurz vor der Veranstaltung per Email an Ihre registrierte E-Mail-Adresse.
Weitere Informationen
Kurssprache: Deursch
Zielgruppe: Python Fortgeschrittene mit Pandas
Dauer der Veranstaltung: 4 Stunden mit zwei Pausen. In einer der beiden Pause wird für alle physisch anwesenden Teilnehmenden ein Rundgang durch das Living Lab von ScaDS.AI Leipzig angeboten. Am Ende der Schulung besteht für die Teilnehmenden die Möglichkeit betriebliche Herausforderungen der Digitalisierung mit den ScaDS.AI Experten zu diskutieren
Kursart: Die Schulung wird zeitgleich auch online angeboten (hybrid)
Veranstaltungsort:
Data Science Forschungszentrum ScaDS.AI Leipzig
Universität Leipzig
Humboldtstraße 25 (Löhrs Carré), 3. Etage
04105 Leipzig, Deutschland
Für weiteren Fragen steht Ihnen Anja Gerbes () zur Verfügung.