12.07.2024
Entwicklung mehrsprachiger Sprachmodelle: OpenGPT-X-Team veröffentlicht sein European LLM Leaderboard
Mehrsprachige Sprachmodelle fördern vielseitigere Ansätze in der Sprachtechnologie
Die digitale Verarbeitung von natürlicher Sprache konnte durch die Verbreitung von Open-Source Sprachmodellen – sogenannten Large Language Models (LLMs) – in den letzten Jahren erheblich vorangebracht werden. Angesichts der starken gesellschaftlichen Bedeutung dieser Entwicklung besteht u.a. ein dringender Bedarf, die Unterstützung von Mehrsprachigkeit zu verbessern. Wissenschaftler:innen der TU Dresden unterstützen diese Entwicklung gemeinsam mit zehn Partnern aus Wirtschaft, Wissenschaft und Medien in dem seit 2022 laufenden BMWK-Projekt OpenGPT-X. Nun hat das Projektteam ein multilinguales Leaderboard veröffentlicht – also eine Rangliste –, die einige der verfügbaren Sprachmodelle, die dem Stand der Technik entsprechen und etwa 7 Milliarden Parameter umfassen, vergleicht.
Modellentwicklung mit Hilfe gängiger multilingualer Benchmarks
Während die meisten verfügbaren Benchmarks zur Evaluierung von Sprachmodellen überwiegend für die englische Sprache verfügbar sind, hat sich das OpenGPT-X-Konsortium das Ziel gesetzt, die Sprachzugänglichkeit umfassend für Mehrsprachigkeit auszubauen und damit Wegbereiter für eine gerechtere und effektivere Sprachtechnologie zu sein. Für diese Reduktion von Sprachbarrieren im digitalen Bereich führten die Wissenschaftler:innen u.a. umfangreiche multilinguale Trainingsläufe durch und testen die entwickelten KI-Modelle anschließend im Hinblick auf Aufgaben wie logisches Denken, Commonsense-Verständnis, Multitasking-Lernen, Wahrheitsgehalt und Übersetzungsfähigkeiten.
Bei der Entwicklung von LLMs ist es wichtig, dass Training und Evaluation Hand in Hand gehen. Um Vergleichbarkeit über mehrere Sprachen hinweg zu ermöglichen, wurden einige der gängigsten Benchmarks wie ARC, HellaSwag, TruthfulQA, GSM8K und MMLU mittels DeepL maschinell in 21 der 24 unterstützten europäischen Sprachen übersetzt. Zudem wurden zwei weitere multilinguale Benchmarks in das Leaderboard aufgenommen, die für die im Projekt betrachteten Sprachen bereits verfügbar waren.
Es ist geplant, über das Leaderboard die Evaluierung von Modellen aus der KI-Plattform Hugging Face Hub zu automatisieren, um die Nachvollziehbarkeit und Vergleichbarkeit der Ergebnisse zu ermöglichen. Die TU Dresden wird hierfür die notwendige Infrastruktur bereitstellen und die Evaluierungsaufträge auf dem HPC-Cluster durchführen. Nach dem aktuellen Release des European LLM Leaderboards sollen noch in diesem Sommer die OpenGPT-X-Modelle veröffentlicht werden und dort ebenfalls sichtbar sein. Denn eines der Kernziele von OpenGPT-X ist es, die Vorteile dieser KI-Sprachmodelle einem breiteren Publikum in Europa und darüber hinaus zugänglich zu machen und eine Vielzahl europäischer Sprachen zu unterstützen. Besonders wichtig ist dieser Fortschritt für Sprachen, die im Bereich der natürlichen Sprachverarbeitung traditionell unterrepräsentiert sind.
TU Dresden mit gebündelter Big-Data-, KI- und HPC-Kompetenz im Projekt
Mit der Expertise der beiden Kompetenzzentren ScaDS.AI (Scalable Data Analytics and Artificial Intelligence) und ZIH (Informationsdienste und Hochleistungsrechnen) an der TU Dresden, steht für OpenGPT-X ein Kooperationspartner zur Verfügung, der das Fachwissen in Sachen Training und Evaluierung großer Sprachmodelle auf Supercomputing-Clustern bündelt. Die gemeinsamen Bemühungen konzentrieren sich auf mehrere kritische Aufgaben, einschließlich der Entwicklung skalierbarer Evaluierungspipelines, der Integration verschiedener Benchmarks und der Durchführung umfassender Evaluierungen auf Supercomputing-Clustern. Ein weiterer Fokus des Teams liegt auf der Verbesserung von Modellleistung, Skalierbarkeit und Effizienz, der kontinuierlichen Überwachung der Auswirkungen von Pre-Trainings und deren Feinabstimmung sowie auf der Nutzung innovativer High-Performance-Computing-Ressourcen.
Überblick über die im Projekt übersetzten Benchmarks
ARC (https://huggingface.co/datasets/ai2_arc) und GSM8K (https://huggingface.co/datasets/openai/gsm8k) konzentrieren sich auf Allgemeinbildung und Mathematik.
HellaSwag (https://huggingface.co/datasets/Rowan/hellaswag) und TruthfulQA (https://huggingface.co/datasets/truthfulqa/truthful_qa) testen die Fähigkeit von Modellen, plausible Fortsetzungen und wahrheitsgemäße Antworten zu geben.
MMLU (https://huggingface.co/datasets/cais/mmlu) bietet eine breite Palette von Aufgaben zur Bewertung der Fähigkeit von Modellen, in einer Vielzahl von Domänen und Aufgaben zu bestehen.
Während FLORES-200 (https://huggingface.co/datasets/facebook/flores) auf die Bewertung der maschinellen Übersetzungsfähigkeiten abzielt, konzentriert sich Belebele (https://huggingface.co/datasets/facebook/belebele) auf das Verständnis und die Beantwortung von Fragen in mehreren Sprachen.
Förderung, Projektleitung und Kontakte
Das Projekt OpenGPT-X wird seit 2022 durch das BMWK gefördert und durch maßgeblich durch das Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme (IAIS) koordiniert.
Kontakte
IAIS – Dr. Nico Flores-Herr, Dr. Michael Fromm
TU Dresden, ScaDS.AI: Dr. René Jäkel, Klaudia-Doris Thellmann
Publikationen
- Ali, Mehdi, Fromm, Michael, Thellmann, Klaudia, Rutmann, Richard, Lübbering, Max, Leveling, Johannes, Klug, Katrin, Ebert, Jan, Doll, Niclas, Buschhoff, Jasper, Jain, Charvi, Weber, Alexander, Jurkschat, Lena, Abdelwahab, Hammam, John, Chelsea, Ortiz Suarez, Pedro, Ostendorff, Malte, Weinbach, Samuel, Sifa, Rafet, Kesselheim, Stefan, & Flores-Herr, Nicolas. (2024). Tokenizer Choice For LLM Training: Negligible or Crucial? In K. Duh, H. Gomez, & S. Bethard (Eds.), Findings of the Association for Computational Linguistics: NAACL 2024 (pp. 3907-3924). Mexico City, Mexico: Association for Computational Linguistics. Retrieved from https://aclanthology.org/2024.findings-naacl.247
- Weber, Alexander Arno, Thellmann, Klaudia, Ebert, Jan, Flores-Herr, Nicolas, Lehmann, Jens, Fromm, Michael, & Ali, Mehdi. (2024). Investigating Multilingual Instruction-Tuning: Do Polyglot Models Demand for Multilingual Instructions? arXiv. Retrieved from https://arxiv.org/abs/2402.13703