Italienische Sprachchroniken als Linguistic Linked Open Data
Das Projekt ist im Überschneidungsbereich von Methoden des Semantic Web und der italienischen Sprachwissenschaft mit Schwerpunkt auf der lexikalischen Semantik sowie der Text- und Diskursanalyse angesiedelt. Am Projekt sind zudem Prof. Christian Chiarcos (Angewandte Computerlinguistik, Universität Augsburg) und Prof. Fabio Rossi (Italienische Sprachwissenschaft, Universität Messina) beteiligt. Ziel ist die digitale Tiefenerschließung eines Korpus italienischer Sprachchroniken (CronIT) zur Etablierung eines semantischen Zugangs zu den Inhalten dieser Textressourcen mittels strukturierter Wissensgraphen, wie sie in jüngerer Zeit im Rahmen von Linguistic Linked Open Data (LLOD) erprobt werden. Ein solcher Zugang bewirkt zum einen eine Verbesserung bereits etablierter Zugriffsarten über Wortformen und außersprachliche Metadaten und ermöglicht zum anderen einen innovativen Zugriff über Wortbedeutungen und die zugrunde liegenden Konzepte.
Der Begriff Sprachchronik bezieht sich auf Artikelserien, die über einen längeren Zeitraum mit gewisser Regelmäßigkeit in der Print- und Onlinepresse von Autorinnen und Autoren veröffentlicht werden, denen eine gewisse Autorität in Sprachfragen zuerkannt wird. In Italien sind dies fast ausschließlich renommierte Sprachwissenschaftlerinnen und Sprachwissenschaftler. Angesichts der dauerhaften und zentralen Bedeutung der Sprachchroniken für die öffentliche Sprachdebatte stellen diese Texte eine journalistische Textsorte bzw. Diskurstradition dar, die durch das Projekt einem breiten Publikum, etwa für didaktische Zwecke und Fragen der Sprachberatung, erstmals online zugänglich gemacht wird. Das CronIT Korpus umfasst derzeit knapp 2.000 Texte aus 13 Sprachchroniken, die zwischen 1947 und 2017 in der italienischen und schweizerischen Print- und Onlinepresse veröffentlicht wurden. Die Texte sind seit Herbst 2025 als volldigitalisierter TEITOK-Korpus im Intranet der Universität Augsburg zur Durchführung vertiefender Machbarkeitsstudien verfügbar. Im Rahmen des Projekts werden folgende weiterführende Teilziele verfolgt:
- Ausbau der digitalen Erschließung des Datenmaterials hinsichtlich einer multimedialen Erweiterung durch die Integration von Audio- und Videoformaten sowie die Integration von machine translations tools zur leichteren Zugänglichkeit der Inhalte für Fremdsprachlernende des Italienischen.
- Publikation der Daten in der Linked Open Data Cloud (LOD-Cloud) und Anreicherung mit semantischen Informationen zur Verknüpfung mit weiteren online verfügbaren Daten, etwa annotierten Korpora des Italienischen, Wörterbüchern und Enzyklopädien sowie Ontologien für Personennamen und linguistische Terminologien. Durch die Verknüpfung mit anderen LOD-Datensets ergibt sich die Möglichkeit, die in den Rubriken behandelten Sprachthemen kontrastiv zu analysieren und den Bezug zwischen Sprachgebrauch und Sprachdebatte diachron darzustellen. Übergreifendes Ziel ist die Herstellung einer über Ressourcen, Disziplinen, Domänen, Zeit und Ort hinweg reichenden Recherchierbarkeit des in den Sprachchroniken enthaltenen Sprachwissens.
- (Semi-)automatische Annotierung des Textmaterials mithilfe von Few-Shot- bzw. Zero-Shot-Learning-Methoden zum Zweck einer diskurslinguistischen Mehrebenenanalyse in Anlehnung an Weiland (2020). Mögliche Untersuchungselemente und -kategorien, deren Kohärenz noch einzeln zu prüfen ist, betreffen die prädiskursive Ebene (z. B. Metaphern, Antithesen), die äußerungsszenographische Ebene (z. B. texttraditionelle Aspekte wie Textaufbau und Textintention, Ethos), die thematische Ebene (behandelte Sprachthemen), die perspektivische Ebene (z.B. Agonalität, Polyphonie, Argumentation) sowie die extensive Ebene (z.B. Zirkulation einzelner Ausdrücke, semantisch-lexikalische Wandelprozesse). Da es sich bei den möglichen Untersuchungsparametern sprachlich betrachtet um vielschichtige und teils komplexe Phänomene handelt, ist es unabdingbar, für die Analyse eine Herangehensweise zu wählen, die qualitative und quantitative Zugriffe verbindet.