Forschungsthemen
[MA] Design und Untersuchung eines allgemeinen Software-Frameworks zur Klassifikation von Text-Daten
Motivation: Die Klassifikation von Texten, engl. Text Classification (TC) als Unterklasse von
Natural Language Processing (NLP) spielt in vielen Bereichen eine wichtige Rolle, z.B. bei der
Auswertung medizinischer Daten, Sprachanalyse oder text-basierten Medien. Allgemein kann
TC als überschneidendes Mapping von Textabschnitten auf Baum-basierte Taxonomien oder
Klassifikationssysteme betrachtet werden. In den letzten Jahren hat Machine Learning (ML)
bedeutende Fortschritte auf dem Gebiet NLP erzielt. Dennoch benötigen ML-Anwendungen
umfangreiche Datensätze, die nicht immer vorhanden sind. Mangelnder Datenumfang kann
durch die Nutzung von Domänenwissen, z.B. Regeln oder Pattern-Matchings substituiert wer-
den. Weiterhin ist eine geeignete Mensch-Maschine-Schnittstelle nötig, um komplexe TC-Systeme
für Domänenanwender zugänglich zu machen und Expertenwissen kontinuierlich in die TC ein-
zupflegen.
Ziel der Arbeit: Die Arbeit soll untersuchen, welche Software-Designs geeignet sind, um ver-
schiedene NLP-Verfahren zu kombinieren, um dadurch auch bei kleineren Datenbeständen
die Klassifikationsgüte zu erhöhen. Ziel ist die Konzeption eines allgemeinen Software-Frameworks,
um
Dazu soll ein Prototyp des Frameworks umgesetzt und anhand eines konkreten Use-Cases aus der Medizin (Hematologie, MedDRA-Daten) evaluiert werden. Das Design und die Umsetzung des Protoypen sollen noch zu eruierende Softwarequalitäten fokussieren.
Betreuer: Karsten Wendt