Forschungsprojekte der Professur
Laufende Projekte:
Generative sprecherunabhängige Prosodie-Modellierung für die artikulatorische Sprachsynthese
FKZ: | KK5049503FG3 |
Laufzeit: | 01.01.2025 – 31.12.2028 |
Förderer: | ESF Plus |
Kurzbeschreibung: | Ziel des Projekts ist es, die Qualität der Sprachsynthese durch den Einsatz eines Text-Generators zu verbessern. Dabei werden Informationen über Zweck, Bedeutung und linguistische Struktur der Äußerungen in den Syntheseprozess integriert. Zusätzlich soll das System flexibel und effizient an verschiedene Sprecher, Sprechergruppen oder neue Domänen anpassbar sein. |
Variabilität der Vokalformanten aufgrund der finiten Impedanz der Glottis, des velopharyngealen Verschlusses und der Vokaltraktwände
Laufzeit: |
15.04.2024 - 14.04.2027 |
Förderer: |
Deutsche Forschungsgemeinschaft (DFG) |
Kooperationspartner: |
Phoniatrie und Pädaudiologie, Klinikum der Ludwig-Maximilians-Universität München (LMU) |
Kurzbeschreibung: |
Forschungsgegenstand sind Randbedingungen und Wechselwirkungen bei der Bildung der Vokalformantfrequenzen. Untersucht werden der Einfluss der finiten Impedanz der Glottis, des velopharyngealen Verschlusses und der mechanischen Eingangsimpedanz der Vokaltraktgewebes. Eine Kombination verschiedener Methoden aus Computersimulationen und physikalischen Modellen wird eingesetzt und anhand von Messreihen validiert, welche an Menschen mit gesunden und kranken Sprechorganen für Sprache und Gesang durchgeführt werden. |
Miniaturisierte Radarsensorik und -analyse für stille Kommunikation (SIRANA)
Laufzeit: |
|
Intelligente Spracherkennung auf Basis diversifizierter synthetischer Sprachdaten
FKZ: | KK5049503FG3 |
Laufzeit: |
01.08.2023 - 31.07.2026 |
Förderer: | AiF Projekt GmbH, ZIM – Kooperationsprojekte |
Kooperationspartner: | Mediainterface GmbH |
Kurzbeschreibung: |
Das Ziel dieses Projekts ist die Verbesserung der Genauigkeit von Spracherkennungssystemen durch die Verwendung von diversifizierten artikulatorisch-synthetischen Sprachdaten, deren Syntheseprozess interpretiert und beobachtet werden kann. Die Generierung natürlicherer und realitätsnäherer Sprachdaten ist daher die vorrangige Herausforderung. Damit soll gesprochene Sprache auch mit unterschiedlichen Akzenten, Dialekten und Sprechweisen erkannt werden können. Zur Erzeugung dieser vielfältigen Sprachdaten werden mit Hilfe des artikulatorischen Sprachsynthesemodells VocalTractLab unterschiedliche Sprechermodelle erstellt, die sich in anatomischen und sprechstilspezifischen Merkmalen unterscheiden. Durch die gezielte Variation dieser Parameter können realistische und zugleich kontrollierbare deutsche Äußerungen generiert werden, die eine verlässliche Grundlage für die Evaluation und Verbesserung von Spracherkennungssystemen bieten. |
Multi-sensorische nicht-invasive Stimmprothetik mittels KI (MUSIK)
FKZ: | 100686372 |
Laufzeit: |
01.06.2023 - 31.05.2026 |
Förderer: | Professur für Hochfrequenztechnik (TUD), Institut für Textilmaschinen und textile Hochleistungswerkstofftechnik (TUD), Altavo GmbH |
Kurzbeschreibung: | In diesem Projekt soll eine neuartige, natürlich klingende Ersatzstimme entwickelt werden. Dabei wird eigens entwickelte Radar-Sensorik verwendet, welche die (stillen) Bewegungen der Zunge, der Lippen usw. erfasst. Eine künstliche Intelligenz erzeugt aus den Messdaten dann ein Sprachsignal. Schwerpunkt ist die Untersuchung zusätzlicher Sensormodalitäten, mit denen sich stille Sprechbewegungen erfassen lassen, um die Vokaltraktbewegungen noch zuverlässiger zu erfassen und damit die künstliche Stimme weiter zu verbessern Die untersuchten Modalitäten sind die intraorale ootische Messung von Zungen- und Lippenbewegungen optische Palatographie, OPG) sowie niedrigfrequenter Ultraschall zur ecternen akustischen Anregung des Vokaltrakts. |
Radarbasierte lautlose Spracherkennung (GerKi)
FKZ: | 20D1930B |
Laufzeit: |
01.01.2021 - 31.12.2025 |
Förderer: | Deutsches Zentrum für Luft- und Raumfahrt (DLR) |
Kurzbeschreibung: | Das Projekt beschäftigt sich mit der lautlosen Spracherkennung mittels eines Impulsradars. Das angewendete Radarsystem soll aus eine durch den oberen Vokaltrakt strahlende Antenne und aus zwei Empfangsantennen bestehen. Anwendung dieser Technologie sind z.B. Sprachkommunikation in Umgebungen mit starkem Geräusch zu erlauben. |
Abgeschlossene Projekte:
Self-Learning Physical Reservoirs for Intelligent Bioelectronic Interfaces
FKZ: |
|
Laufzeit: |
01.11.2022 – 15.04.2023 (Phase 1) and 01.05.2023 – 14.07.2023 (Phase 2) |
Förderer: |
Bundesagentur für Sprunginnovation, Challenge “New Computing Concepts” |
Kooperationspartner: |
Dresden Integrated Center for Applied Physics and Photonic Materials (IAPP) |
Kurzbeschreibung: |
In this project, we aim to explore the theory and practical hardware implementation of self-learning physical reservoirs as a highly power-efficient and versatile edge-computing system for on-chip classification of bioelectronic signals or environmental monitoring. With this approach, we are not following the current paradigms of edge-computing using e.g., field-programmable gated array or memristive networks, but rather we will pioneer a radically new path of analog, in-material computing using self-learning physical reservoirs. Our edge-AI-system does not require massive neural networks with precisely adjustable weights, but rather utilizes the nonlinearity of the material to create a sparse, random neural network offering superior power-efficiency over other edge-AI approaches. |
Nicht-invasive Stimmprothetik mittels Vokaltrakt-Radarsensorik und Echtzeit-AI-Sprachsynthese (Promise-AI) – Teilprojekt: Radarbasierte Messung des Vokaltraktsignals, Datenerhebung und Validierung an Probanden
FKZ: |
16SV8989 |
Laufzeit: |
01.08.2022 – 31.07.2024 |
Förderer: |
BMBF |
Kooperationspartner: |
Altavo GmbH, Dresden; Lehrstuhl für Hochfrequenztechnik, TU Dresden |
Kurzbeschreibung: |
Voice loss represents a severe disability, often accompanied by social withdrawal and inability to work. The collaborative project Promise-AI pursues a fundamentally new approach to voice rehabilitation in order to help voiceless people regain a natural-sounding, easy-to-learn artificial voice without complications or stigma. This will involve capturing articulation movements of the vocal tract with non-invasive radar sensor technology, processing them in real time, and using a previously trained AI to synthesize natural-sounding speech that is output through the speaker of a smartphone. In a participatory approach, patients and other stakeholders will be involved in the design of a patient-friendly MTI concept. The sub-project of TU Dresden is focussed on the investigation of the radar sensor technology, signal analysis and EMC compatibility as well as on the acquisition of training data and the execution of validation study. |
Entwicklung eines Flugbahnplanungsalgorithmus und der notwendigen Bahnregelung zur energieeffizienten Nutzung eines unbemannten Luftfahrtsystemnetzes im urbanen Gebiet (UrbanSens)
FKZ: |
20D2106C |
Laufzeit: |
01.01.2022 – 31.12.2024 |
Förderer: |
Bundesministerium für Wirtschaft und Energie |
Kooperationspartner: |
Professur für Flugmechanik und Flugregelung (TU Dresden), Professur für Hochfrequenztechnik (TU Dresden), Infineon Technologies, und weitere |
Kurzbeschreibung: |
Das Vorhaben adressiert den effizienten Einsatz von vernetzten unbemannten) Luftfahrzeugen in einer urbanen Umgebung durch die Entwicklung von neuen Sensor- und Kommunikationsstrategien, und der Entwicklung neuartiger Regelungsmethoden zur Ausnutzung von lokalen Wettereffekten. Es leistet wichtige Beiträge zum förderpolitischen Ziel "Leistungsfähige und effiziente Luftfahrt" mit Fokus "Neue Mobilität der Zukunft". Es werden umfassende Arbeiten im Bereich von unbemannten Systemen für Logistikaufgaben beginnend bei einer Untersuchung der urbanen Umweltaerodynamik über die Entwicklung neuer Sensoren zur Windfeldmessung bis zur Flugbahnregelung und Evaluierung im Flugversuch getätigt. Die entwickelten Technologien sind auch essentiell für eine umweltfreundlichere bemannte Luftfahrt, z.B. im Bereich der Urban Air Mobility. |
Digitale Transformation und Souveränität zukünftiger Kommunikationsnetze (6G-Life)
FKZ: | 16KISK001K |
Laufzeit: |
15.08.2021 - 14.08.2025 |
Förderer: | BMBF |
Adaptives Monitoringsystem für ultralange Kabelstrecken (HIMON)
Laufzeit: | 01.04.2020 - 30.07.2023 |
Förderer: | HIGHVOLT Prüftechnik Dresden GmbH |
Kooperationspartner: | HIGHVOLT Prüftechnik Dresden GmbH |
Kurzbeschreibung: | Innovatives Verfahren zur Überwachung und Zustandsbewertung von Hochspannungskomponenten kritischer Infrastruktursysteme in Energieversorgungsanlagen. |
Entwicklung einer Sprechererkennung- und Verifikation für medizinische Diktiersysteme (SEMED)
FKZ: | ZF4443005HB9 |
Laufzeit: | 01.04.2020 - 31.12.2022 |
Förderer: | AiF Projekt GmbH |
Kurzbeschreibung: | Ziel dieses Projektes ist die Entwicklung einer Sprechererkennung und -verifikation für medizinische Diktiersysteme, die auf sprecherspezifischen Merkmalen beruht. Mit den neuen sprecherabhängigen Merkmalen werden signifikant höhere Erkennungsleistungen sowohl bei der Sprachzuordnung als auch Spracherkennung insgesamt ermöglicht werden. Außerdem sollte das ganze System robust gegen Interferenzen und Hintergrundgeräusche sein. |
EVoc-Learn: High quality simulation of early vocal learning (Spracherwerb)
Laufzeit: | 01.11.2019 - 31.10.2022 |
Förderer: | Leverhulme Trust |
Link: | http://www.homepages.ucl.ac.uk/~uclyyix/EVL/project.html |
Akzentverbesserung durch Aussprachetraining mit Artikulatorischer Rückmeldung (ADAMA)
FKZ: | 01/S19019B |
Laufzeit: | 01.10.2019 - 30.09.2022 |
Förderer: | BMBF |
Kooperationspartner: | Linguwerk GmbH Dresden |
Kurzbeschreibung: | Das Projekt beschäftigt sich mit dem Erlernen einer neuen Sprache und mit dem Wunsch, diese möglichst akzentfrei zu sprechen. Um das selbstständige Üben flexibler und effizienter zu gestalten, soll ein System entwickelt werden, welches erstmalig drei verschiedene Ansätze für CAPT (Computer Aided Pronunciation Training) in einem automatisierten Gesamtkonzept vereint: artikulatorisches Biofeedback, einen virtuellen, animierten Lehrer und die Bewertung der Aussprache auf Basis akustischer und artikulatorischer Messungen. |
Entwicklung eines altersgerechten Assistenzsystems zur Gerätebedienung auf Basis von Zungenbewegungen
Laufzeit: | 12.12.2018 - 30.06.2021 |
Förderer: |
Sächsische Aufbaubank |
Link: |
Lautlose mobile Sprachkommunikation mittels Radarsensoren und artikulatorischer Sprachsynthese (RadarSpeech)
Laufzeit: | 15.08.2019 - 30.06.2022 |
Förderer: | Sächsische Aufbaubank |
Link: |
Breitbandige akustische Modellierung von Sprache
FKZ: | BI 1639/7-1 |
Laufzeit: | 13.05.2019 - 12.05.2022 |
Förderer: | Deutsche Forschungsgemeinschaft DFG |
Kooperationspartner: |
|
Kurzbeschreibung: |
The high frequency part of the speech spectrum remains still relatively unexplored and challenging for the physical modelling of speech production. However, it contains perceptively relevant information and may, as an example, play a role in the naturalness and intelligibility of speech synthesis. In this project we will develop a wideband speech synthesis framework based on the multimodal method which is an efficient high frequency acoustic simulation method. This physical relevance will be assessed experimentally and the synthesis will be evaluated perceptually. |
EASY - Expressive Artikulatorische SYnthese von Audiobooks
FKZ: | ZF4443004BZ8 |
Laufzeit: | 01.08.2018 - 31.07.2021 |
Förderer: | ZIM - Zentrales Innovationsprogramm Mittelstand |
Kooperationspartner: |
Aristech GmbH, Heidelberg |
Kurzbeschreibung: |
Die artikulatorische Sprachsynthese besitzt als Simulation des Sprechapparats theoretisch alle Möglichkeiten zum stimmlichen und sprachlichen Ausdruck von Emotionen und Stimmungen, die auch der Mensch besitzt. In diesem Projekt werden diese Möglichkeiten erforscht und angewendet, um eine möglichst ausdrucksstarke, automatische Synthese von Hörbüchern für Kinder zu erzeugen, die dem Vortrag durch einen Vorleser ähnelt. |
Untersuchung von Teilentladungssignalen
Laufzeit: | 01.11.2018 - 31.12.2019 |
Auftraggeber: | HighVolt Prüftechnik Dresden GmbH |
Entwicklung eines optoelektronischen Messsystems zur Steuerung interaktiver logopädischer Übungen
FKZ: | 16SV7741 |
Laufzeit: | 01.03.2017 - 29.02.2020 |
Förderer: | BMBF |
Kooperationspartner: |
|
Kurzbeschreibung: |
Als Folge von Einschränkungen in der Motorik leiden viele Menschen nach einem Schlaganfall unter Schluck- und Sprechstörungen, die aber unter logopädischer Anleitung durch gezieltes Training oft behandelt werden können. Im Projekt OSLO soll ein intraorales Sensorsystem entwickelt werden, welches optisch die gesamte Dynamik der Zunge vermisst und dem Patient bzw. der Patientin die Möglichkeit gibt, auch unbeaufsichtigt weitertrainieren zu können. Erreicht werden soll dies spielerisch über verschiedene therapeutische Minispiele, welche einfach über das Sensorsystem am Tablet gesteuert werden können. |
Intrinsische richtungsabhängige Geschwindigkeiten von Artikulatoren
FKZ: | BI 1639/4-1 |
Laufzeit: | Juli 2017 - Juni 2020 |
Förderer: | DFG |
Faszination Sprechende Maschine: Technologischer Wandel der Sprachsynthese über zwei Jahrhunderte
FKZ: | 01UQ1601A |
Laufzeit: | 01.12.2016 – 31.05.2019 |
Förderer: | BMBF |
Kooperationspartner: |
|
Ersatzstimme für Kehlkopflose durch Sprechbewegungsmessung und artikulatorische Sprachsynthese in Echtzeit (Stimme 2.0)
FKZ: | 13GW0101B |
Laufzeit: | 01.01.2016 – 31.12.2018 |
Förderer: | BMBF |
Kooperationspartner: | Linguwerk GmbH |
Untersuchung von Mundhöhlenvariationen von Holzbläsern
Laufzeit: | 27.02.2015 - 27.04.2015 |
Auftraggeber: | Institut für Musikinstrumentenbau e.V. Zwota |
Biofeedback für die Therapie von Schluckstörungen
Laufzeit: | 01.11.2014 - 31.03.2015 |
Auftraggeber: |
Klinik für Hals- Nasen- und Ohrenheilkunde des Klinikums der Goethe-Universität Frankfurt/M., Schwerpunkt für Phoniatrie und Pädaudiologie |
Analyse von Rauschquellen im Vokaltrakt mit einem neuen Messverfahren zur 3D-Echtzeit-Rekonstruktion der Mundhöhle
FKZ: | BI 1639 - 1/2 |
Laufzeit: | 01.10.2012 - 31.12.2015 |
Förderer: | DFG |