Forschungsthemen

[MA] Design und Untersuchung eines allgemeinen Software-Frameworks zur Klassifikation von Text-Daten

Motivation: Die Klassiﬁkation von Texten, engl. Text Classiﬁcation (TC) als Unterklasse von Natural Language Processing (NLP) spielt in vielen Bereichen eine wichtige Rolle, z.B. bei der Auswertung medizinischer Daten, Sprachanalyse oder text-basierten Medien. Allgemein kann TC als überschneidendes Mapping von Textabschnitten auf Baum-basierte Taxonomien oder Klassiﬁkationssysteme betrachtet werden. In den letzten Jahren hat Machine Learning (ML) bedeutende Fortschritte auf dem Gebiet NLP erzielt. Dennoch benötigen ML-Anwendungen umfangreiche Datensätze, die nicht immer vorhanden sind. Mangelnder Datenumfang kann durch die Nutzung von Domänenwissen, z.B. Regeln oder Pattern-Matchings substituiert wer- den. Weiterhin ist eine geeignete Mensch-Maschine-Schnittstelle nötig, um komplexe TC-Systeme für Domänenanwender zugänglich zu machen und Expertenwissen kontinuierlich in die TC ein- zupﬂegen.

Ziel der Arbeit: Die Arbeit soll untersuchen, welche Software-Designs geeignet sind, um ver- schiedene NLP-Verfahren zu kombinieren, um dadurch auch bei kleineren Datenbeständen die Klassiﬁkationsgüte zu erhöhen. Ziel ist die Konzeption eines allgemeinen Software-Frameworks, um

verschiedene Datenquelle anzubinden

baum-basierte Taxonomien als Klassiﬁzierungsziele zu nutzen

unterschiedliche NLP-Verfahren, einschließlich der zugehörigen Technologien zu integrieren

ein allgemeines Daten-Pipelining-Schema zu entwerfen, einschließlich notwendiger, allgemeiner Vorverarbeitungsschritte

verschiedene Ergebnis-Qualitätsmetriken zu unterstützen

Nutzerschnittstellen anzubinden / Human-in-the-Loop-Konzept ermöglichen

ggfs. Hyperoptimierung zu nutzen

Dazu soll ein Prototyp des Frameworks umgesetzt und anhand eines konkreten Use-Cases aus der Medizin (Hematologie, MedDRA-Daten) evaluiert werden. Das Design und die Umsetzung des Protoypen sollen noch zu eruierende Softwarequalitäten fokussieren.

Betreuer: Karsten Wendt

Forschungsthemen

[MA] Design und Untersuchung eines allgemeinen Software-Frameworks zur Klassifikation von Text-Daten

Zu dieser Seite

Finden!