09.08.2019
Mathematiker der TU Dresden entwickeln neue statistische Kennzahl
Geht es Ihnen nicht auch so? Wenn es draußen heiß ist, bekommt man Appetit auf ein kühlendes Eis. Aber hätten Sie gedacht, dass dabei Mathematik im Spiel sein könnte?
Wir zeigen es Ihnen: Die steigenden Temperaturen und der ansteigende Eiskonsum sind statistisch betrachtet zwei Variablen in linearer Abhängigkeit, einer sogenannten Korrelation.
In der Statistik sind Korrelationen wichtig, um Vorhersagen zum zukünftigen Verhalten von Variablen zu geben. Solche wissenschaftlich berechneten Prognosen werden von den Medien immer wieder angefragt – für Fußball- ebenso wie für Wahlergebnisse.
Als Maß der linearen Abhängigkeit dient der sogenannte Korrelationskoeffizient, der erstmals vom britischen Naturforscher Sir Francis Galton (1822–1911) in den 1870er Jahren verwendet wurde. Wenig später lieferte der Mathematiker Karl Pearson eine formal-mathematische Begründung für den Korrelationskoeffizienten. Daher sprechen Mathematiker auch von der Pearson Produkt-Moment-Korrelation oder der Pearson-Korrelation.
Besteht zwischen den Variablen allerdings eine nichtlineare Abhängigkeit, stellt der Korrelationskoeffizient kein geeignetes Maß für die stochastische Abhängigkeit von Merkmalen dar.
René Schilling, Professor für Wahrscheinlichkeitstheorie an der TU Dresden, betont: „Bisher war es mit erheblichem Rechenaufwand verbunden, die Zusammenhänge zwischen zwei oder mehr hochdimensionalen Variablen zu erfassen und dabei auch komplizierte nichtlineare Abhängigkeiten zu erkennen. Dafür haben wir jetzt eine effiziente und praxistaugliche Lösung gefunden.“
Dr. Björn Böttcher, Prof. Martin Keller-Ressel und Prof. René Schilling vom Institut für Mathematische Stochastik der TU Dresden haben die Kennzahl der "distance multivariance“ entwickelt, deren Definition und die zugrundeliegende mathematische Theorie unter dem Titel "Distance Multivariance: New Dependence Measures for Random Vectors“ in der international führenden Fachzeitschrift „Annals of Statistics" veröffentlicht wurde.
Martin Keller-Ressel erklärt: „Zur Berechnung der Kennzahl werden nicht nur die Werte der beobachteten Variablen selbst, sondern auch deren wechselseitige Abstände erfasst und aus diesen Distanzmatrizen anschließend die distance multivariance berechnet.
Dieser zusätzliche Zwischenschritt ermöglicht das Erkennen komplexer Abhängigkeiten, welche der gewöhnliche Korrelationskoeffizient einfach „übersehen“ würde. Unsere Methode lässt sich beispielsweise auf Fragestellungen der Bioinformatik anwenden, in denen große Datenmengen analysiert werden müssen.“
In einer Nachfolgearbeit konnte darüber hinaus gezeigt werden, dass der klassische Korrelationskoeffizient und andere bekannte Abhängigkeitsmaße als Grenzfälle aus der distance multivariance wieder gewonnnen werden können.
Björn Böttcher weist abschließend darauf hin: „Wir stellen alle nötigen Funktionen im Paket ‚multivariance' für die freie Statistik-Software 'R‘ zur Verfügung, somit können alle Interessierten die Anwendung der Kennzahl testen“.
Originalveröffentlichung:
B. Böttcher, M. Keller-Ressel, R. Schilling, Distance multivariance: New dependence measures for random vectors, Annals of Statistics 2019, Vol. 47, No. 5, 2757-2789.
Kontakt für Journalisten:
Prof. Martin Keller-Ressel
Tel. 0351 463 35234
E-Mail: