26.11.2024
Mehrsprachig und Open Source: Forschungsprojekt OpenGPT-X veröffentlicht großes KI-Sprachmodell
OpenGPT-X stellt ab sofort sein großes KI-Sprachmodell zum Download bereit. Nach dem Launch des European LLM Leaderboards Mitte Juli, hat das Konsortium des Bundesministeriums für Wirtschaft und Klimaschutz (BMWK) geförderten Forschungsprojekts – unter Mitwirkung der TU Dresden – nun das zugrundeliegende Modell "Teuken-7B" veröffentlicht. Es wurde von Grund auf mit den 24 Amtssprachen der EU trainiert und umfasst sieben Milliarden Parameter. Als technologische Grundlage kann das kostenfreie Modell damit für Anwendungen der Generativen Künstlichen Intelligenz (KI) angepasst, ergänzt und spezialisiert werden. Zudem lassen sich mit ihm vielfältige KI-Anwendungen realisieren.
Teuken-7B ist aktuell eines der wenigen KI-Sprachmodelle, die als Basismodell von Grund auf mehrsprachig trainiert werden. Die Highlights sind neben seiner Multilingualität, eine mehrsprachige Vorverarbeitungsstufe ("Tokenizer"), die für effizienteres Training und Betrieb sorgt, sowie die Einbettung in die Infrastruktur des europäischen Gaia-X-Ökosystems. Die Bereitstellung als Open-Source-Modell erlaubt es Unternehmen und Organisationen, eigene angepasste Modelle in realen Anwendungen zu betreiben. Dadurch soll der Bedarf an transparenten und individuell anpassbaren Lösungen in der generativen KI sowohl in der Wissenschaft als auch in der Wirtschaft adressiert werden.
Generative KI aus einem starken Verbund – mit europäischer Perspektive
Teuken-7B wurde als frei verwendbares Open-Source-Modell mit europäischer Perspektive auf den Weg gebracht. In dem vom BMWK geförderten Verbundprojekt OpenGPT-X haben zehn Partner, darunter die TU Dresden mit den beiden CIDS-Departments ZIH und ScaDS.AI Dresden/Leipzig, unter der Leitung der Fraunhofer-Institute für Intelligente Analyse- und Informationssysteme IAIS und für Integrierte Schaltungen IIS eng zusammengearbeitet.
"Ich freue mich über die heutige Veröffentlichung des Gaia-X-basierten KI-Sprachmodells Teuken-7B und gratuliere dem Projekt OpenGPT-X, dass es diesen wichtigen Meilenstein erreicht hat. Besonders ist, dass Teuken-7B auch die sichere Nutzung sensibler Unternehmensdaten ermöglicht, da die Gaia-X-Standards die Datenspeicherung und -verarbeitung nach höchsten europäischen Datenschutz- und Sicherheitsbestimmungen garantieren. Innovationen wie diese stärken die digitale Souveränität, die Wettbewerbsfähigkeit und auch die Resilienz Deutschlands und Europas. Deshalb fördert das BMWK das Projekt mit rund 14 Millionen Euro", sagt Dr. Franziska Brantner, Parlamentarische Staatssekretärin im BMWK.
Die TU Dresden hat (neben dem Forschungszentrum Jülich) Infrastruktur für das Projekt bereitgestellt. Zudem wurden das Setup sowie die Installation für die Modelltrainings und -evaluierungen unterstützt. Für das Training wurde die Effizienz beispielsweise anhand der GPU-Auslastung sowie verschiedener Parallelisierungsstrategien untersucht und optimiert. Die trainierten Modelle wurden hinsichtlich ihrer verschiedenen Fähigkeiten evaluiert, dazu gehören unter anderem logisches Denken und Übersetzungsfähigkeit. Die Ergebnisse können im bereits veröffentlichten Leaderboard eingesehen werden.
Highlights des Sprachmodells
Verbesserter Tokenizer steigert Effizienz von Sprachmodellen in nicht-englischen Sprachen
OpenGPT-X legte bei der Modellentwicklung großen Wert auf die (energie-)effiziente Nutzung der Rechenressourcen und forschte dafür insbesondere intensiv am Tokenizer. Als zentrales Element großer KI-Sprachmodelle zerlegen Tokenizer Wörter in einzelne Wortbestandteile. Je weniger Token desto schneller generieren Sprachmodelle eine Antwort.
Zugriff über die europäische Gaia-X-Infrastruktur
Das Projekt wurde im Rahmen des BMWK-Förderprogramms "Innovative und praxisnahe Anwendungen und Datenräume im digitalen Ökosystem Gaia-X" gefördert mit dem Ziel, Akteuren im Gaia-X-Ökosystem zu ermöglichen, innovative Sprachanwendungen zu entwickeln und in konkrete Anwendungsszenarien in ihren jeweiligen Domänen zu überführen.
Kostenfreie Nutzung für forschungsbezogene und kommerzielle Zwecke
Entwickler:innen können Teuken-7B bei Hugging Face kostenfrei herunterladen und in der eigenen Entwicklungsumgebung damit arbeiten. Das Modell wurde durch ein s.g. Instruction Tuning bereits für Chatanwendungen optimiert. Mit Instruction Tuning werden große KI-Sprachmodelle dahingehend angepasst, dass das Modell Anweisungen von Nutzer:innen richtig versteht. Das Modell steht in einer Version für Forschungszwecke sowie einer Version unter der Lizenz "Apache 2.0", die Unternehmen auch für kommerzielle Zwecke nutzen und in eigene KI-Anwendungen integrieren können, zur Verfügung.
Weiterführende Links
- Modell-Download und Model Cards: https://huggingface.co/openGPT-X
- Technische Informationen, Benchmarks und Forschungsergebnisse zu OpenGPT-X: https://opengpt-x.de/en/models/teuken-7b
- Fachpublikationen aus OpenGPT-X: https://opengpt-x.de/news-de
- European LLM Leaderboard: https://huggingface.co/spaces/openGPT-X/european-llm-leaderboard
- Feedback und technische Fragen: https://discord.com/invite/RvdHpGMvB3
- Demo-Termin vereinbaren: www.iais.fraunhofer.de/opengpt-x
- Gaia-X: https://gaia-x-hub.de/
Über OpenGPT-X
Das OpenGPT-X-Projekt startete am 1. Januar 2022 mit einer Förderung des BMWK in Höhe von rund 14 Millionen Euro und endet am 31. März 2025. Die zehn Projektpartner sind Fraunhofer IAIS, Fraunhofer IIS, Forschungszentrum Jülich, KI Bundesverband, TU Dresden, DFKI, IONOS, Aleph Alpha, ControlExpert und WDR. Unter der Leitung von Fraunhofer IAIS und Fraunhofer IIS erforscht das Projekt die gesamte Wertschöpfungskette der Generativen KI: Von der hochskalierbaren, GPU-basierten Infrastruktur und den Daten für das Training großer Sprachmodelle, über die Entwicklung der Modelle, bis hin zur produktiven Anwendung in Form von Prototypen und Proof of Concepts (PoCs).
Übergreifendes Ziel des Projektes war es, ein eigenes großes KI-Sprachmodell zu entwickeln, das für Forschung und Unternehmen Open Source zur Verfügung gestellt und insbesondere auf die multilingualen Bedürfnisse Europas ausgerichtet wird. Mit der Veröffentlichung von Teuken-7B hat das Projekt dieses Ziel erreicht und stellt damit eine aus der öffentlichen Forschung stammende Alternative für zukünftige wissenschaftliche Untersuchungen und wirtschaftliche Anwendungen der Generativen KI zur Verfügung.
Über das CIDS
Als verbindendes Element über alle Forschungs- und Lehrbereiche hinweg ist die Digitalisierung ein zentraler strategischer Schwerpunkt der TU Dresden, da die digitale Transformation Organisationsstrukturen, Prozesse und Produkte verändert. In der Wissenschaft bietet sie neue Möglichkeiten, zukunftsweisende Lösungen zu erforschen und einen Beitrag für die Gesellschaft zu leisten. Die Anpassung an neue Technologien wie Edge- und Cloud-Computing ist daher heute universell notwendig. Die erforderlichen Fähigkeiten, die eng mit HPC, Big Data, Datenanalyse und KI verknüpft sind, machen es erforderlich, dass künftige Infrastrukturen dynamisch und autonom agieren, die Ressourcennutzung optimieren und gleichzeitig die Datenhoheit für die Nutzer:innen wahren.
Das Center for Interdisciplinary Digital Sciences (CIDS) unterstreicht das Engagement der TU Dresden, in den Bereichen Digitalisierung, HPC und KI führend zu sein, und positioniert sie als wettbewerbsfähiges Zentrum für interdisziplinäre Forschung und Innovation. Mit seinen beiden Abteilungen ZIH und ScaDS.AI Dresden/Leipzig integriert das CIDS zwei Kompetenzzentren für HPC und KI.
Förderung, Projektleitung und Kontakte
Das Projekt OpenGPT-X wird seit 2022 durch das BMWK gefördert und maßgeblich durch das Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme (IAIS) koordiniert.
Kontakte:
Fraunhofer IAIS:
Dr. Nicolas Flores-Herr, Dr. Michael Fromm
TU Dresden, ScaDS.AI Dresden/Leipzig:
Dr. René Jäkel, Klaudia-Doris Thellmann