Einführung in die statistische Datenanalyse mit R
Weiterbildungsveranstaltung der Graduiertenakademie der TU Dresden
Dozentinnen und Dozenten:
Dr. Matthias Rudolf
Dr. Diana Vogel-Blaschka
Peggy Wehner, MSc.
Durchführung im Wintersemester 2024:
Dr. Matthias Rudolf
Dr. Diana Vogel-Blaschka
PC-Pool Seminargebäude 2 / 0101
- Donnerstag, 08.02.2024, 15:00 - 18:00 Uhr
- Freitag, 09.02.2024, 09:00 - 12:00 Uhr
- Donnerstag, 15.02.2024, 15:00 - 18:00 Uhr
- Freitag, 16.02.2024, 09:00 - 12:00 Uhr
- Montag, 19.02.2024, 15:00 - 18:00 Uhr
Wenn Sie lediglich online teilnehmen können:
https://tu-dresden.zoom-x.de/j/2330220292?pwd=dU9ZYk1UUVZoTkd5Ti9BbjU3TnpOQT09
Voraussetzungen:
- Die Teilnehmerinnen und Teilnehmer können die Software (RStudio bzw. R) im PC-Pool benutzen. Bitte beachten Sie unbedingt, dass Sie sich für die Arbeit im PC-Pool über Ihr persönliches ZIH-Login anmelden müssen!
- Wenn sie mit eigenen Laptops arbeiten möchten, sollten sie nach Möglichkeit vor Beginn des Kurses R (http://cran.r-project.org) sowie RStudio (https://posit.co/downloads/) in der aktuellsten Version auf ihren Rechnern installieren.
Graduiertenakademie:
Zur Seite des Kurses bei der Graduiertenakademie
Überblick:
R ist eine frei verfügbare Statistik-Software bzw. eine Statistik-Programmiersprache. Das Programmpaket ist über die Internet-Seite www.r-project.org frei verfügbar. Das Programmpaket wird von Statistikern und anderen Wissenschaftlern kontinuierlich weiterentwickelt und verfügt mittlerweile über einen Funktionsumfang, der auch großen kommerziellen Statistik-Paketen teilweise überlegen ist. R hat den Nachteil, dass der Einstieg im Vergleich zu Programmen wie SPSS weniger komfortabel ist. Zu SPSS ist umfangreiche Sekundärliteratur verfügbar, wodurch die Anwendung des Programms sehr erleichtert wird. Wenn man also nur gelegentlich statistische Analysen durchzuführen hat, ist in der Regel die Anwendung von SPSS zu empfehlen.
Für diejenigen Anwender, die zum Beispiel im Rahmen ihrer Forschungsarbeiten nahezu "ununterbrochen" Datenauswertungen incl. grafischer Darstellungen durchzuführen haben und die bereit sind, einen höheren Einarbeitungsaufwand zu investieren, bietet R dagegen eindeutige Vorteile. Der Hauptvorteil besteht darin, dass R kostenfrei nutzbar und damit überall verfügbar ist. Die Flexibilität des Programms ermöglicht die Programmierung eigener Routinen und Abläufe. Viele neu entwickelte statistische Verfahren werden heute zuerst in R umgeserzt, die grafischen Möglichkeiten von R sind eindrucksvoll.
In der Veranstaltung, die sich ganz vorrangig an Anfänger in der Arbeit mit R richtet, wird zunächst eine Einführung in die Arbeit mit R gegeben, daneben werden die statistischen und grafischen Möglichkeiten von R "ausprobiert". In den weiteren Veranstaltungen werden ausgewählte Verfahren umgesetzt und in den Veranstaltungen kleine Projekte bearbeitet.
Inhaltliche Schwerpunkte:
- Datenverwaltung und Objektstrukturen in R
- Grafiken in R
- Korrelations- und Regressionsanalyse in R
- Grundlagen der Programmierung in R
- Grundlagen der Programmierung, Permutationstests und Bootstrap-Verfahren,
- Monte-Carlo-Simulationen, Power-Analysen und die Berechnung optimaler Stichprobenumfänge in R
Kursunterlagen:
Skripte und Daten Tag 1
Skripte und Daten Tag 2
Skripte und Daten Tag 3
Skripte und Daten Tag 4
Skripte und Daten Tag 5
Lösungsskript Tag 1 Teil 1
Lösungsskript Tag 1 Teil 2
Lösungsskript Tag 2 Teil 1
Lösungsskript Tag 2 Teil 2
Lösungsskript Tag 3 Teil 1
Lösungsskript Tag 3 Teil 2
Lösungsskript Tag 4 Teil 1
Lösungsskript Tag 4 Teil 2
Lösungsskript Tag 5 Teil 1
Lösungsskript Tag 5 Teil 2
Lösungsskript "Zum warm bleiben"
Vortrag "Bestimmung optimaler Stichprobenumfänge"
Links zum elearning Modul:
Grundbegriffe der Statistik
Grundlagen multivariater Verfahren