Kunstmatige intelligentie
Onderzoekers willen automatische spraakherkenning uitbreiden naar 2.000 talen

Een team van onderzoekers aan de Carnegie Mellon University wil automatische spraakherkenning uitbreiden naar 2.000 talen. Op dit moment zullen alleen een deel van de geschatte 7.000 tot 8.000 gesproken talen ter wereld profiteren van moderne taaltechnologieën zoals voice-to-text-transcriptie of automatische ondertiteling.
Xinjian Li is een Ph.D.-student aan het Language Technologies Institute (LTI) van de School of Computer Science.
“Veel mensen in deze wereld spreken diverse talen, maar taaltechnologie-tools worden niet voor alle talen ontwikkeld,” zei hij. “Het ontwikkelen van technologie en een goed taalmodel voor alle mensen is een van de doelen van dit onderzoek.”
Li maakt deel uit van een team van experts dat de gegevensvereisten voor talen wil vereenvoudigen om een spraakherkenningsmodel te ontwikkelen.
Het team omvat ook LTI-faculteitsleden Shinji Watanabe, Florian Metze, David Mortensen en Alan Black.
Het onderzoek met de titel “ASR2K: Speech Recognition for Around 2,000 Languages Without Audio” werd gepresenteerd op Interspeech 2022 in Zuid-Korea.
De meeste bestaande spraakherkenningsmodellen vereisen tekst- en audiodatasets. Terwijl tekstgegevens voor duizenden talen bestaan, is dit niet het geval voor audio. Het team wil de behoefte aan audiodata elimineren door zich te concentreren op linguïstische elementen die in veel talen voorkomen.
SpraakherkenningsTechnologieën richten zich meestal op een taal fonemen, die distincte geluiden zijn die het onderscheiden van andere talen. Deze zijn uniek voor elke taal. Tegelijkertijd hebben talen fonemen die beschrijven hoe een woord fysiek klinkt, en meerdere fonemen kunnen overeenkomen met één foneme. Terwijl afzonderlijke talen verschillende fonemen kunnen hebben, kunnen de onderliggende fonemen hetzelfde zijn.
Het team werkt aan een spraakherkenningsmodel dat minder afhankelijk is van fonemen en meer van informatie over hoe fonemen tussen talen worden gedeeld. Dit helpt om de inspanning te verminderen die nodig is om afzonderlijke modellen voor elke individuele taal te bouwen. Door het model te combineren met een fylogenetische boom, die een diagram is dat de relaties tussen talen in kaart brengt, helpt het met uitspraakregels. Het model en de boomstructuur van het team hebben het mogelijk gemaakt om de spraakmodel voor duizenden talen te benaderen, zelfs zonder audiodata.
“We proberen deze audiodata-vereiste te verwijderen, wat ons helpt om van 100 tot 200 talen naar 2.000 te gaan,” zei Li. “Dit is het eerste onderzoek dat een dergelijk groot aantal talen als doel heeft, en we zijn het eerste team dat taaltools tot deze omvang wil uitbreiden.”
Het onderzoek, dat nog in een vroeg stadium is, heeft de bestaande taalbenaderingstools met 5% verbeterd.
“Elke taal is een heel belangrijke factor in de cultuur. Elke taal heeft zijn eigen verhaal, en als je niet probeert om talen te behouden, kunnen die verhalen verloren gaan,” zei Li. “Het ontwikkelen van dit soort spraakherkenningsysteem en dit instrument is een stap om die talen te behouden.”












