12.01.2026
Publikation zum NAUS-Verfahren
Weniger ist manchmal mehr: Neues Open-Access Paper für unausgewogene medizinische Daten beim Maschinellen Lernen
Maschinelles Lernen hilft in der Medizin, jedoch nur, wenn die Daten nicht „schief“ verteilt sind.
In vielen klinischen Datensätzen gibt es sehr viele häufige Fälle (z. B. unauffällige Befunde) und nur wenige seltene Fälle (z. B. seltene Erkrankungen oder Komplikationen). Genau diese seltenen Fälle sind aber oft die wichtigsten und werden von Modellen besonders leicht übersehen.
Internationale Zusammenarbeit: Dresden × Almaty (Kasachstan)
Gemeinsam mit unseren Kooperationspartnern aus Kasachstan um Zholdas Buribayev, Ainur Yerkos und Zhibek Zhetpisbay, sowie im Umfeld von ScaDS.AI, Dresden hat Markus Wolfien einen neuen Open-Access Artikel in Elsevier’s Informatics in Medicine Unlocked veröffentlicht. Darin wird NAUS (Noise-Aware Undersampling with Subsampling) vorgestellt: ein Verfahren, das medizinische Datensätze gezielt bereinigt und reduziert, um Redundanz zu verringern und seltene, klinisch wichtige Fälle im Training besser sichtbar zu machen. Die Arbeit entstand durch den engen Austausch zwischen Dresden und Almaty, inklusive gemeinsamer Zeit und Zusammenarbeit vor Ort in Dresden.
Link zum Artikel: https://doi.org/10.1016/j.imu.2026.101731
Warum „mehr Daten“ nicht immer besser ist
Der Gedanke „je mehr Daten, desto besser“ trifft in der Praxis nicht immer zu, vor allem dann nicht, wenn:
- es extrem viele häufige Fälle gibt, die sich stark ähneln (viel Wiederholung)
- einige dieser häufigen Fälle fehlerhaft oder „verrauscht“ sind (Messfehler, Ausreißer, unklare Labels)
- die seltenen Fälle wirklich rar sind
Dann kann die große Menge an häufigen Fällen das Modell regelrecht „überstimmen“: Es lernt sehr gut, was häufig ist, aber nicht, was selten und wichtig ist.
Unsere Idee: Nicht einfach weniger, sondern gezielter
NAUS verfolgt einen klaren Grundsatz: Zunächst aufräumen, danach sinnvoll reduzieren.
Statt unkoordiniert viele Daten zu löschen, versucht NAUS, genau die häufigen Fälle zu entfernen, die eher stören als helfen und die nützlichen Fälle zu behalten. Dies wird in mehreren Schritten umgesetzt, u. a.:
- Rauschen erkennen und entfernen (z. B. widersprüchliche oder auffällige Datenpunkte),
- Grenzfälle berücksichtigen (Fälle, die nahe an der Grenze zwischen den Gruppen liegen und oft entscheidend fürs Lernen sind),
- Redundanz abbauen (sehr ähnliche häufige Fälle werden reduziert, damit die seltenen Fälle im Training nicht „untergehen“).
Das Ziel ist es, Daten nicht „wegzuwerfen“, sondern das Signal zu stärken.
Ein Beispiel: Warum weniger sinnvoll sein kann
Stellen Sie sich ein medizinisches Screening vor:
- 10.000 Patient:innen sind unauffällig → häufige Fälle
- 100 Patient:innen haben eine seltene Erkrankung → seltene Fälle
Hier liegt das Problem: Von den 10.000 häufigen Fällen sind viele sehr ähnlich. Diese Wiederholungen liefern dem Modell zwar „viel Datenmenge“, aber wenig neue Information. Gleichzeitig sind die 100 seltenen Fälle so wenig, dass sie beim Training leicht untergehen. Das Modell lernt dann vor allem die häufige Situation sehr sicher, aber erkennt die seltenen Fälle schlechter.
Was NAUS macht:
NAUS versucht, genau diese störenden häufigen Fälle (Rauschen, ähnliche Beispiele, problematische Grenzfälle) zu reduzieren. Dadurch werden die seltenen Fälle im Training sichtbarer und das Modell lernt zuverlässiger, sie zu erkennen.
Wo wurde NAUS getestet?
Wir haben NAUS auf Datensätzen aus der Medizin evaluiert, unter anderem zu chronischer Nierenerkrankung, Lebererkrankung und Herzerkrankung, sowie zusätzlich auf etablierten Benchmark-Datensätzen für unausgewogene Daten. Zum Vergleich wurde NAUS zudem gegen gängige Methoden getestet. Insbesondere Verfahren, die Daten „auffüllen“ (Oversampling Methoden wie z. B. SMOTE/ADASYN/LoRAS), als auch klassische Verfahren, die Daten reduzieren (Undersampling Methoden). Als Modelle zur Überprüfung der „korrigierten“ Daten kamen u. a. Random Forest, LightGBM und Multilayer Perceptron zum Einsatz.