Künstliche Intelligenz
Forscher wollen automatische Spracherkennung auf 2.000 Sprachen erweitern

Ein Team von Forschern an der Carnegie Mellon University will die automatische Spracherkennung auf 2.000 Sprachen erweitern. Derzeit würden nur ein Teil der geschätzten 7.000 bis 8.000 gesprochenen Sprachen auf der ganzen Welt von modernen Sprachtechnologien wie Voice-to-Text-Transkription oder automatischer Untertitelung profitieren.
Xinjian Li ist ein Doktorand am Language Technologies Institute (LTI) der School of Computer Science.
“Viele Menschen auf dieser Welt sprechen diverse Sprachen, aber Sprachtechnologien werden nicht für alle von ihnen entwickelt”, sagte er. “Die Entwicklung von Technologie und einem guten Sprachmodell für alle Menschen ist eines der Ziele dieser Forschung.”
Li gehört zu einem Team von Experten, die die Datenanforderungen für die Entwicklung eines Spracherkennungsmodells für Sprachen vereinfachen wollen.
Das Team umfasst auch die LTI-Fakultätsmitglieder Shinji Watanabe, Florian Metze, David Mortensen und Alan Black.
Die Forschung mit dem Titel “ASR2K: Speech Recognition for Around 2,000 Languages Without Audio” wurde auf der Interspeech 2022 in Südkorea präsentiert.
Die meisten der vorhandenen Spracherkennungsmodelle erfordern Text- und Audio-Datensätze. Während Textdaten für Tausende von Sprachen existieren, gilt dies nicht für Audio. Das Team will die Notwendigkeit von Audio-Daten durch die Konzentration auf linguistische Elemente, die in vielen Sprachen gemeinsam sind, eliminieren.
Spracherkennungstechnologien konzentrieren sich normalerweise auf die Phoneme einer Sprache, die distinkten Laute, die sie von anderen Sprachen unterscheiden. Diese sind einzigartig für jede Sprache. Gleichzeitig haben Sprachen Phones, die beschreiben, wie ein Wort klingt, und mehrere Phones können einem einzigen Phonem entsprechen. Während verschiedene Sprachen unterschiedliche Phoneme haben, können die zugrunde liegenden Phones dieselben sein.
Das Team arbeitet an einem Spracherkennungsmodell, das weniger auf Phonemen und mehr auf Informationen über die gemeinsamen Phones zwischen Sprachen angewiesen ist. Dies hilft, den Aufwand, der zum Aufbau separater Modelle für jede einzelne Sprache erforderlich ist, zu reduzieren. Durch die Kombination des Modells mit einem phylogenetischen Baum, der eine Abbildung der Beziehungen zwischen Sprachen ist, wird die Ausspracheregeln unterstützt. Das Modell des Teams und die Baumstruktur haben es ermöglicht, das Sprachmodell für Tausende von Sprachen auch ohne Audio-Daten zu approximieren.
“Wir versuchen, diese Audio-Daten-Anforderung zu entfernen, was uns hilft, von 100 bis 200 Sprachen auf 2.000 zu kommen”, sagte Li. “Dies ist die erste Forschung, die ein so großes Sprachspektrum anspricht, und wir sind das erste Team, das darauf abzielt, Sprachtools auf diesen Umfang auszudehnen.”
Die Forschung, die noch in einem frühen Stadium ist, hat die vorhandenen Sprachapproximationstools um 5% verbessert.
“Jede Sprache ist ein sehr wichtiger Faktor in ihrer Kultur. Jede Sprache hat ihre eigene Geschichte, und wenn man nicht versucht, Sprachen zu erhalten, könnten diese Geschichten verloren gehen”, sagte Li. “Die Entwicklung dieses Spracherkennungssystems und dieses Tools ist ein Schritt, um diese Sprachen zu erhalten.”










