Tekoäly

Tutkijat pyrkivät laajentamaan automaattisen puheentunnistuksen 2,000 XNUMX kieleen

Julkaistu

1 vuotta sitten

Tammikuu 14, 2023

Carnegie Mellonin yliopiston tutkijaryhmä aikoo laajentaa automaattista puheentunnistusta 2,000 7,000 kielelle. Tällä hetkellä vain osa arviolta 8,000 XNUMX–XNUMX XNUMX puhutusta kielestä ympäri maailmaa hyötyisi nykyaikaisista kielitekniikoista, kuten puhetekstiksi transkriptiosta tai automaattisesta tekstityksestä.

Xinjian Li on Ph.D. opiskelija tietotekniikan korkeakoulun Language Technologies Institutessa (LTI).

"Monet ihmiset tässä maailmassa puhuvat erilaisia kieliä, mutta kieliteknologian työkaluja ei kehitetä kaikille", hän sanoi. "Teknologian ja hyvän kielimallin kehittäminen kaikille ihmisille on yksi tämän tutkimuksen tavoitteista."

Li kuuluu asiantuntijaryhmään, joka haluaa yksinkertaistaa kielten tietovaatimuksia puheentunnistusmallin kehittämiseksi.

Tiimiin kuuluvat myös LTI:n tiedekunnan jäsenet Shinji Watanabe, Florian Metze, David Mortensen ja Alan Black.

Tutkimus nimeltä "ASR2K: Puheentunnistus noin 2,000 XNUMX kielelle ilman ääntä” esiteltiin Interspeech 2022 -tapahtumassa Etelä-Koreassa.

Suurin osa olemassa olevista puheentunnistusmalleista vaatii teksti- ja äänidatajoukkoja. Vaikka tekstidataa on olemassa tuhansille kielille, sama ei pidä paikkaansa äänen kohdalla. Tiimi haluaa poistaa äänidatan tarpeen keskittymällä kielellisiin elementteihin, jotka ovat yleisiä monilla kielillä.

Puheentunnistusteknologiat keskittyvät yleensä kielen foneemiin, jotka ovat erillisiä ääniä, jotka erottavat sen muista kielistä. Nämä ovat ainutlaatuisia jokaiselle kielelle. Samaan aikaan kielillä on puhelimia, jotka kuvaavat, kuinka sana kuulostaa fyysisesti, ja useat puhelimet voivat vastata yhtä foneemia. Vaikka eri kielillä voi olla eri foneemeja, taustalla olevat puhelimet voivat olla samat.

Tiimi työskentelee puheentunnistusmallin parissa, joka perustuu vähemmän foneemiin ja enemmän tietoihin siitä, kuinka puhelimia jaetaan kielten välillä. Tämä auttaa vähentämään erillisten mallien luomiseen tarvittavaa vaivaa jokaiselle yksittäiselle kielelle. Yhdistämällä mallin fylogeneettiseen puuhun, joka on kaavio, joka kartoittaa kielten välisiä suhteita, se auttaa ääntämissäännöissä. Ryhmän malli ja puurakenne ovat mahdollistaneet tuhansien kielten puhemallin likiarvon jopa ilman äänidataa.

"Yritämme poistaa tämän äänidatavaatimuksen, joka auttaa meitä siirtymään 100 kielestä 200 kieleen 2,000 XNUMX kieleen", Li sanoi. "Tämä on ensimmäinen tutkimus, joka on kohdistettu näin suureen määrään kieliä, ja olemme ensimmäinen tiimi, joka pyrkii laajentamaan kielityökaluja tähän laajuuteen."

Vaikka tutkimus on vielä alkuvaiheessa, se on parantanut olemassa olevia kielen lähentämistyökaluja 5 %.

”Jokainen kieli on erittäin tärkeä tekijä kulttuurissaan. Jokaisella kielellä on oma tarinansa, ja jos et yritä säilyttää kieliä, nuo tarinat saattavat kadota", Li sanoi. "Tällaisen puheentunnistusjärjestelmän ja tämän työkalun kehittäminen on askel näiden kielten säilyttämiseen."

Liittyvät aiheet:AI tekoäly puheentunnistus

Seuraavaksi

Syväoppiminen vs vahvistusoppiminen

Älä missaa

Koneoppiminen vs. syväoppiminen – keskeiset erot

Alex McFarland

Alex McFarland on tekoälytoimittaja ja kirjailija, joka tutkii tekoälyn viimeisintä kehitystä. Hän on tehnyt yhteistyötä lukuisten AI-startup-yritysten ja -julkaisujen kanssa maailmanlaajuisesti.