GeMTeX - Automatische Erschließung medizinischer Texte für die Forschung und Entwicklung einer großen Textsammlung deutschsprachiger, medizinischer Texte aus der Patientenversorgung
Projektlaufzeit
01.06.2023 - 30.09.2024 (1. Tranchenfinanzierung); 01.10.2024 - 31.08.2026. (2. Tranchenfinanzierung)
Projektinhalt
Im klinischen Alltag fallen zahlreiche Texte an, darunter Arztbriefe und diverse Befunde, die wertvolle Informationen zur Krankheitsgeschichte, zum -verlauf und zur Behandlung enthalten. Derartige narrative Texten haben einen hohen Informationswert und werden trotz des zunehmenden Anteils strukturierter Daten in der medizinischen Dokumentation weiterhin von hoher Relevanz sein, da die Texte sehr aussagekräftig sind und für die Dokumentation komplexer medizinischer Zusammenhänge notwendig sind. Insbesondere langfristige zeitliche oder inhaltliche Zusammenhänge von gesundheitsbezogenen Prozessen lassen sich mit Texten besonders gut und schlüssig darstellen.
Allerdings kann das volle Potenzial der klinischen Dokumente aufgrund fehlender Standardisierung nicht ausgeschöpft werden. Die Methodenplattform GeMTeX (German Medical Text Corpus) setzt an dieser Stelle an, hat es sich zum Ziel gemacht, die umschriebene Lücke zu schließen und medizinische Texte aus der täglichen Patientenversorgung für Forschungsprojekte verfügbar zu machen. Damit soll der größte medizinische Textkorpus in deutscher Sprache entstehen. Mit Einwilligung der Patient*innen werden die anfallenden Dokumente aus elektronischen Gesundheitsakten (ePA) gesammelt, mittels der Verarbeitung natürlicher Sprache datenschutzgerecht aufbereitet und in anonymisierter Form für die gemeinsame Nutzung aller GeMTeX-Standorte zur Verfügung gestellt. Damit entsteht ein wertvolles Textrepertoire für Forschung und Entwicklung.
Damit die Texte aus der Routineversorgung für Klinik und Forschung genutzt werden können, müssen sie jedoch zunächst für Programme computergestützter Verarbeitung natürlicher Sprache (NLP) lesbar sein. Hierfür sind große Mengen an annotierten Texten aus der täglichen Patientenversorgung notwendig. Als annotierte Texte werden Dokumente bezeichnet, die durch systematische Anmerkungen zusätzliche Informationen enthalten, z. B. Angaben zu Diagnosen oder Medikationen. Die Anmerkungen werden von angehenden Ärzt*innen manuell überprüft und dienen damit als Referenz für die weitere Verbesserung der automatischen Annotation. Auf diese Weise strukturierte Informationen können zusammen mit vorliegenden Daten für Analysen und statistische Modelle verwendet werden.
Die IT-Infrastruktur, die während der Aufbau- und Vernetzungsphase der Medizininformatik-Initiative (MII) zwischen 2018 und 2022 aufgebaut worden ist, bietet die Möglichkeit, klinische Dokumente in großem Umfang zugänglich zu machen und sie mit systematischen Anmerkungen anzureichern. GeMTeX strebt damit an, die zwei wesentlichen neuralgischen Stellen bisheriger Sprachmodelle - die Datenzugänglichkeit und die Datenannotation - aufzulösen.
Darüber hinaus wird GeMTeX eine zentrale technische und organisatorische Struktur schaffen, um anonymisierte Texte zu sammeln und sie richtlinienkonform zur Anreicherung zu bearbeiten. Mit der entstehenden Textdatenbank können KI-Modelle trainiert und auf ihre Nützlichkeit im klinischen Alltag überprüft werden.
Rolle der Hochschulmedizin Dresden
Am Standort Dresden werden Textdokumente aus verschiedenen klinischen IT-Systemen zur Verfügung gestellt, annotiert und datenqualitätsgesichert hinterlegt. Ziel ist es, mittels einer effektiven Bewertung der Datenqualität eine Best-Practice-Definition zu liefern, welche die Anforderungen an die Datenanalyse, die Datenbereinigung und die Datenkontrolle widerspiegelt und somit einen praktischen Ansatz für die Datenverwaltung im Sinne eines kontrollierten Datenmanagements darstellt.
Ansprechpartner
wissenschaftlicher Mitarbeiter
NameHerr Dr.-Ing. Markus Wolfien
Eine verschlüsselte E-Mail über das SecureMail-Portal versenden (nur für TUD-externe Personen).
Finanzierung
Die Finanzierung erfolgt aus Mitteln des Bundesministeriums für Bildung und Forschung (BMBF).
Förderkennzeichen: 01 ZZ 2314F