Umjetna inteligencija
Istraživači žele proširiti automatsko prepoznavanje govora na 2,000 jezika

Tim istraživača sa Sveučilišta Carnegie Mellon želi proširiti automatsko prepoznavanje govora na 2,000 jezika. U ovom trenutku, samo bi dio od procijenjenih 7,000 do 8,000 jezika koji se govore diljem svijeta imao koristi od modernih jezičnih tehnologija poput transkripcije glasa u tekst ili automatskog titlovanja.
Xinjian Li je doktor znanosti. student na Institutu za jezične tehnologije (LTI) Fakulteta računalnih znanosti.
"Puno ljudi u ovom svijetu govori različite jezike, ali alati jezične tehnologije nisu razvijeni za sve njih", rekao je. "Razvoj tehnologije i dobrog jezičnog modela za sve ljude jedan je od ciljeva ovog istraživanja."
Li pripada timu stručnjaka koji žele pojednostaviti podatke koji su potrebni jezicima za razvoj modela prepoznavanja govora.
Tim također uključuje članove LTI fakulteta Shinji Watanabe, Florian Metze, David Mortensen i Alan Black.
Istraživanje pod nazivom “ASR2K: Prepoznavanje govora za oko 2,000 jezika bez zvuka” predstavljen je na Interspeechu 2022 u Južnoj Koreji.
Većina postojećih modela prepoznavanja govora zahtijeva tekstualne i audio skupove podataka. Dok tekstualni podaci postoje za tisuće jezika, isto ne vrijedi za audio. Tim želi eliminirati potrebu za audio podacima usredotočujući se na lingvističke elemente koji su uobičajeni u mnogim jezicima.
Tehnologije prepoznavanja govora obično se usredotočuju na foneme jezika, što su različiti zvukovi koji ga razlikuju od drugih jezika. Oni su jedinstveni za svaki jezik. U isto vrijeme, jezici imaju telefone koji opisuju kako riječ fizički zvuči, a više telefona može odgovarati jednom fonemu. Dok zasebni jezici mogu imati različite foneme, osnovni nazivi mogu biti isti.
Tim radi na modelu prepoznavanja govora koji se manje oslanja na foneme, a više na informacije o tome kako se telefoni dijele između jezika. To pomaže smanjiti napor potreban za izgradnju zasebnih modela za svaki pojedinačni jezik. Spajanjem modela s filogenetskim stablom, koje je dijagram koji prikazuje odnose među jezicima, pomaže kod pravila izgovora. Model tima i struktura stabla omogućili su im aproksimaciju modela govora za tisuće jezika čak i bez audio podataka.
"Pokušavamo ukloniti ovaj zahtjev za audio podacima, što nam pomaže da prijeđemo sa 100 do 200 jezika na 2,000", rekao je Li. "Ovo je prvo istraživanje koje cilja tako velik broj jezika, a mi smo prvi tim koji želi proširiti jezične alate na ovaj opseg."
Istraživanje, iako je još u ranoj fazi, poboljšalo je postojeće alate za aproksimaciju jezika za 5%.
“Svaki jezik je vrlo važan faktor u svojoj kulturi. Svaki jezik ima svoju priču i ako ne pokušate očuvati jezike, te bi priče mogle biti izgubljene,” rekao je Li. "Razvoj ove vrste sustava za prepoznavanje govora i ovog alata korak je u pokušaju očuvanja tih jezika."