Der Einfluss von Charakteristiken der grundlegenden Verteilungen und Datenbalancierung auf Verzerrungen während der Klassifizierung in stark unbalancierten Datensätzen
Ungleichheit in der Verteilung der Klassen ist ein grundlegendes Merkmal der meisten realen Daten, wenn auch in unterschiedlich starken Verzerrunggraden. Da dies die Regel und nicht die Ausnahme ist, müssen Anwendungen des maschinellen Lernens (ML) grundlegend damit fertig werden können. Dies gilt sowohl in Bezug auf das Trainieren des Modells als auch auf die Auswertung und Interpretation der Ergebnisse. Während dies unter vielen Umständen kein großes Problem darstellt und oft vernachlässigt werden kann, wird es in Entscheidungen mit hohen Risiken, wie bei politischen Prozessen oder klinischen Diagnosen, zu einem kritisch wichtigen Punkt. Da die selten auftretenden Datenpunkte oft von zentralem Interesse sind und ihre zuverlässige Klassifizierung damit von hoher Bedeutung ist, wird oft eine höhere Gewichtung zugunsten dieser Klasse angewandt. Diese Verzerrung führt jedoch häufig zu einer Überschätzung dieser Klasse zum Zeitpunkt der Klassifizierung, was wiederum zu vielen Falsch-Positiven mit schwerwiegenden Folgen führen kann.
In diesem Projekt untersuchen wir, welche Rolle eine solche Verzerrung durch Balancierung auf Vorhersagen haben kann. Wir erforschen, ob und inwiefern Merkmale und Eigenschaften der zugrunde liegenden Verteilungen (Dimensionalität, Überlappung/Trennung der Klassen, Form und Art der Verteilung, Streuung, (Multi-)Modalität, Dichte der Daten, Heterogenität usw.) die Stärke der eingeführten Verzerrung beeinflussen können und wie diese berücksichtigt und korrigiert werden kann. Wir verwenden eine prototypische, generische ML-Pipeline, die eine Vielzahl von verschiedenen Balancierungs- und Klassifikationstechniken nutzt, um dieses Problem systematisch zu analysieren. Das Ziel ist, Muster zu entdecken, die helfen können den Kompromiss zwischen besserer Klassentrennung bei Ungleichgewicht und durch Balancierung eingeführter Klassifikationsverzerrung zu verstehen. Dieses Wissen kann wiederum verwendet werden, um die künstliche Verzerrung der Klassifizierungsergebnisse zu interpretieren, zu verstehen, zu schätzen und zu korrigieren. Dies ist ein wichtiger, aber bisher oft nicht beachteter Aspekt bei Entscheidungsprozessen in risiko-reichen Anwendungen im Allgemeinen und im klinischen Umfeld im Besonderen.
Beteiligte Wissenschaftler
- Dr. Friedemann Uschner
Finanzierung
IMB Haushalt