Künstliche Intelligenz

MOSEL: Förderung der Sprachdatensammlung für alle europäischen Sprachen

Published October 7, 2024

Updated April 27, 2026

Alex McFarland

Die Entwicklung von KI-Sprachmodellen wurde größtenteils von Englisch dominiert, wodurch viele europäische Sprachen unterrepräsentiert blieben. Dies hat ein erhebliches Ungleichgewicht in der Art und Weise geschaffen, wie KI-Technologien verschiedene Sprachen und Kulturen verstehen und darauf reagieren. MOSEL zielt darauf ab, diese Erzählung zu ändern, indem eine umfassende, open-source-Sammlung von Sprachdaten für die 24 offiziellen Sprachen der Europäischen Union erstellt wird. Durch die Bereitstellung vielfältiger Sprachdaten soll MOSEL sicherstellen, dass KI-Modelle inklusiver und repräsentativer für die reiche sprachliche Landschaft Europas sind.

Die Sprachenvielfalt ist von entscheidender Bedeutung, um Inklusivität in der KI-Entwicklung zu gewährleisten. Eine zu starke Abhängigkeit von englischzentrierten Modellen kann dazu führen, dass Technologien weniger effektiv oder sogar für Sprecher anderer Sprachen unzugänglich sind. Multilinguale Datensätze helfen dabei, KI-Systeme zu erstellen, die allen Menschen dienen, unabhängig von der Sprache, die sie sprechen. Die Förderung der Sprachenvielfalt verbessert die Zugänglichkeit von Technologien und stellt sicher, dass verschiedene Kulturen und Gemeinschaften fair vertreten sind. Durch die Förderung der sprachlichen Inklusivität kann KI die vielfältigen Bedürfnisse und Stimmen der Nutzer wirklich widerspiegeln.

Überblick über MOSEL

MOSEL, oder Massive Open-source-Sprachdaten für europäische Sprachen, ist ein bahnbrechendes Projekt, das darauf abzielt, eine umfassende, open-source-Sammlung von Sprachdaten zu erstellen, die alle 24 offiziellen Sprachen der Europäischen Union abdeckt. Entwickelt von einem internationalen Team von Forschern, integriert MOSEL Daten aus 18 verschiedenen Projekten, wie CommonVoice, LibriSpeech und VoxPopuli. Diese Sammlung umfasst sowohl transkribierte Sprachaufnahmen als auch unbeschriftete Audio-Daten, was eine bedeutende Ressource für die Weiterentwicklung der multilingualen KI-Entwicklung darstellt.
Einer der Hauptbeiträge von MOSEL ist die Einbeziehung sowohl transkribierter als auch unbeschrifteter Daten. Die transkribierten Daten bieten eine zuverlässige Grundlage für die Ausbildung von KI-Modellen, während die unbeschrifteten Audio-Daten für weitere Forschung und Experimente verwendet werden können, insbesondere für sprachlich benachteiligte Sprachen. Die Kombination dieser Datensätze bietet eine einzigartige Gelegenheit, Sprachmodelle zu entwickeln, die inklusiver und in der Lage sind, die vielfältige sprachliche Landschaft Europas zu verstehen.

Schließung der Datenlücke für unterrepräsentierte Sprachen

Die Verteilung von Sprachdaten über die europäischen Sprachen ist sehr ungleichmäßig, wobei Englisch den größten Teil der verfügbaren Datensätze dominiert. Diese Ungleichheit stellt erhebliche Herausforderungen für die Entwicklung von KI-Modellen dar, die in der Lage sind, weniger repräsentierte Sprachen zu verstehen und genau darauf zu reagieren. Viele der offiziellen EU-Sprachen, wie Maltesisch oder Irisch, haben sehr begrenzte Daten, was die Fähigkeit von KI-Technologien behindert, diese sprachlichen Gemeinschaften effektiv zu bedienen.
MOSEL zielt darauf ab, diese Datenlücke zu schließen, indem es das OpenAI-Whisper-Modell nutzt, um automatisch 441.000 Stunden zuvor unbeschrifteter Audio-Daten zu transkribieren. Dieser Ansatz hat die Verfügbarkeit von Trainingsmaterial erheblich erweitert, insbesondere für Sprachen, die über keine umfassenden manuell transkribierten Daten verfügten. Obwohl die automatische Transkription nicht perfekt ist, bietet sie einen wertvollen Ausgangspunkt für weitere Entwicklungen, um inklusivere Sprachmodelle zu erstellen.
Allerdings sind die Herausforderungen besonders evident für bestimmte Sprachen. Zum Beispiel hatte das Whisper-Modell Schwierigkeiten mit Maltesisch, wobei es einen Wortfehler von über 80 Prozent erreichte. Solche hohen Fehlerquoten unterstreichen die Notwendigkeit für weitere Arbeiten, einschließlich der Verbesserung von Transkriptionsmodellen und der Sammlung von mehr hochwertigen, manuell transkribierten Daten. Das MOSEL-Team ist sich dieser Bemühungen bewusst und setzt sie fort, um sicherzustellen, dass auch sprachlich benachteiligte Sprachen von den Fortschritten in der KI-Technologie profitieren können.

Die Rolle des Open Access bei der Förderung von KI-Innovationen

Die Open-Source-Verfügbarkeit von MOSEL ist ein wichtiger Faktor bei der Förderung von Innovationen in der europäischen KI-Forschung. Durch die kostenlose Verfügbarkeit der Sprachdaten ermöglicht MOSEL es Forschern und Entwicklern, mit umfassenden, hochwertigen Datensätzen zu arbeiten, die zuvor nicht verfügbar oder eingeschränkt waren. Diese Zugänglichkeit fördert die Zusammenarbeit und das Experimentieren, was einen communitygetriebenen Ansatz zur Weiterentwicklung von KI-Technologien für alle europäischen Sprachen begünstigt.
Forscher und Entwickler können die Daten von MOSEL nutzen, um KI-Sprachmodelle zu trainieren, zu testen und zu verfeinern, insbesondere für Sprachen, die in der KI-Landschaft unterrepräsentiert sind. Die offene Natur dieser Daten ermöglicht es auch kleineren Organisationen und akademischen Institutionen, an der Spitze der KI-Forschung teilzunehmen, indem sie Barrieren abbauen, die oft großen Technologieunternehmen mit exklusiven Ressourcen zugutekommen.

Zukünftige Richtungen und der Weg vor uns

Im Hinblick auf die Zukunft plant das MOSEL-Team, den Datensatz weiter zu erweitern, insbesondere für unterrepräsentierte Sprachen. Durch die Sammlung von mehr Daten und die Verbesserung der Genauigkeit von automatisierten Transkriptionen zielt MOSEL darauf ab, eine ausgewogenere und inklusivere Ressource für die KI-Entwicklung zu schaffen. Diese Bemühungen sind von entscheidender Bedeutung, um sicherzustellen, dass alle europäischen Sprachen, unabhängig von der Anzahl der Sprecher, in der sich entwickelnden KI-Landschaft einen Platz haben.
Der Erfolg von MOSEL könnte auch ähnliche Initiativen weltweit inspirieren, um die sprachliche Vielfalt in der KI über Europa hinaus zu fördern. Durch die Schaffung eines Präzedenzfalls für Open Access und gemeinsame Entwicklung ebnet MOSEL den Weg für zukünftige Projekte, die Inklusivität und Repräsentation in der KI priorisieren, was letztendlich zu einer gerechteren technologischen Zukunft beiträgt.

Alex McFarland

Alex McFarland ist ein KI-Journalist und Schriftsteller, der die neuesten Entwicklungen im Bereich der künstlichen Intelligenz erforscht. Er hat mit zahlreichen KI-Startups und Veröffentlichungen weltweit zusammengearbeitet.