Artificial Intelligence

Onderzoekers willen automatische spraakherkenning uitbreiden naar 2,000 talen

gepubliceerd

1 jaar geleden

14 januari 2023

Een team onderzoekers van Carnegie Mellon University wil automatische spraakherkenning uitbreiden naar 2,000 talen. Op dit moment zou slechts een deel van de naar schatting 7,000 tot 8,000 gesproken talen over de hele wereld baat hebben bij moderne taaltechnologieën zoals spraak-naar-tekst-transcriptie of automatische ondertiteling.

Xinjian Li is een Ph.D. student aan het Language Technologies Institute (LTI) van de School of Computer Science.

"Veel mensen in deze wereld spreken verschillende talen, maar taaltechnologietools worden niet voor allemaal ontwikkeld", zei hij. “Het ontwikkelen van technologie en een goed taalmodel voor alle mensen is een van de doelen van dit onderzoek.”

Li maakt deel uit van een team van experts die de gegevensvereisten willen vereenvoudigen die talen nodig hebben om een spraakherkenningsmodel te ontwikkelen.

Het team omvat ook LTI-faculteitsleden Shinji Watanabe, Florian Metze, David Mortensen en Alan Black.

Het onderzoek getiteld “ASR2K: spraakherkenning voor ongeveer 2,000 talen zonder audio”werd gepresenteerd op Interspeech 2022 in Zuid-Korea.

Een meerderheid van de bestaande spraakherkenningsmodellen vereist tekst- en audiodatasets. Hoewel tekstgegevens bestaan voor duizenden talen, geldt hetzelfde niet voor audio. Het team wil de behoefte aan audiogegevens elimineren door zich te concentreren op taalkundige elementen die in veel talen voorkomen.

Spraakherkenningstechnologieën richten zich normaal gesproken op het foneem van een taal, dit zijn verschillende geluiden die de taal onderscheiden van andere talen. Deze zijn uniek voor elke taal. Tegelijkertijd hebben talen telefoons die beschrijven hoe een woord fysiek klinkt, en meerdere telefoons kunnen overeenkomen met een enkel foneem. Hoewel afzonderlijke talen verschillende fonemen kunnen hebben, kunnen de onderliggende telefoons dezelfde zijn.

Het team werkt aan een spraakherkenningsmodel dat minder afhankelijk is van fonemen en meer van informatie over hoe telefoons tussen talen worden gedeeld. Dit helpt de inspanning te verminderen die nodig is om afzonderlijke modellen voor elke afzonderlijke taal te bouwen. Door het model te koppelen aan een fylogenetische boom, een diagram dat de relaties tussen talen in kaart brengt, helpt het met uitspraakregels. Het model van het team en de boomstructuur hebben hen in staat gesteld om het spraakmodel voor duizenden talen te benaderen, zelfs zonder audiogegevens.

"We proberen deze vereiste voor audiogegevens te schrappen, waardoor we van 100 naar 200 talen naar 2,000 kunnen gaan", zei Li. "Dit is het eerste onderzoek dat zich op zo'n groot aantal talen richt, en wij zijn het eerste team dat taalhulpmiddelen naar dit bereik wil uitbreiden."

Hoewel het onderzoek zich nog in een vroeg stadium bevindt, zijn de bestaande hulpmiddelen voor taalbenadering met 5% verbeterd.

“Elke taal is een heel belangrijke factor in zijn cultuur. Elke taal heeft zijn eigen verhaal en als je niet probeert talen te behouden, kunnen die verhalen verloren gaan', zei Li. "Het ontwikkelen van dit soort spraakherkenningssysteem en deze tool is een stap om te proberen die talen te behouden."

Gerelateerde onderwerpen:AI kunstmatige intelligentie spraakherkenning

Diep leren versus versterkend leren

Mis het niet

Machine learning versus diep leren - belangrijkste verschillen

Alex McFarland

Alex McFarland is een AI-journalist en -schrijver die de nieuwste ontwikkelingen op het gebied van kunstmatige intelligentie onderzoekt. Hij heeft samengewerkt met tal van AI-startups en publicaties over de hele wereld.