stub Forskere ønsker å utvide automatisk talegjenkjenning til 2,000 språk - Unite.AI
Kontakt med oss

Kunstig intelligens

Forskere ønsker å utvide automatisk talegjenkjenning til 2,000 språk

Publisert

 on

Et team av forskere ved Carnegie Mellon University ønsker å utvide automatisk talegjenkjenning til 2,000 språk. Per nå vil bare en del av de anslåtte 7,000 til 8,000 talte språkene rundt om i verden ha nytte av moderne språkteknologier som tale-til-tekst-transkripsjon eller automatisk teksting.

Xinjian Li er en Ph.D. student ved School of Computer Science's Language Technologies Institute (LTI).

"Mange mennesker i denne verden snakker forskjellige språk, men språkteknologiske verktøy blir ikke utviklet for dem alle," sa han. "Å utvikle teknologi og en god språkmodell for alle mennesker er et av målene med denne forskningen."

Li tilhører et team av eksperter som ønsker å forenkle datakravene språk trenger for å utvikle en talegjenkjenningsmodell.

Teamet inkluderer også LTI-fakultetsmedlemmer Shinji Watanabe, Florian Metze, David Mortensen og Alan Black.

Forskningen med tittelen "ASR2K: Talegjenkjenning for rundt 2,000 språk uten lyd” ble presentert på Interspeech 2022 i Sør-Korea.

Et flertall av de eksisterende talegjenkjenningsmodellene krever tekst- og lyddatasett. Mens tekstdata finnes for tusenvis av språk, er det samme ikke sant for lyd. Teamet ønsker å eliminere behovet for lyddata ved å fokusere på språklige elementer som er vanlige på mange språk.

Talegjenkjenningsteknologier fokuserer vanligvis på et språks fonem, som er distinkte lyder som skiller det fra andre språk. Disse er unike for hvert språk. Samtidig har språk telefoner som beskriver hvordan et ord høres ut fysisk, og flere telefoner kan tilsvare et enkelt fonem. Mens separate språk kan ha forskjellige fonemer, kan de underliggende telefonene være de samme.

Teamet jobber med en talegjenkjenningsmodell som er mindre avhengig av fonemer og mer på informasjon om hvordan telefoner deles mellom språk. Dette bidrar til å redusere innsatsen som trengs for å bygge separate modeller for hvert enkelt språk. Ved å pare modellen med et fylogenetisk tre, som er et diagram som kartlegger relasjonene mellom språk, hjelper det med uttaleregler. Teamets modell og trestrukturen har gjort dem i stand til å tilnærme talemodellen for tusenvis av språk selv uten lyddata.

"Vi prøver å fjerne dette lyddatakravet, som hjelper oss å flytte fra 100 til 200 språk til 2,000," sa Li. "Dette er den første forskningen som retter seg mot et så stort antall språk, og vi er det første teamet som tar sikte på å utvide språkverktøy til dette omfanget."

Forskningen, mens den fortsatt er i et tidlig stadium, har forbedret eksisterende språktilnærmingsverktøy med 5 %.

«Hvert språk er en svært viktig faktor i sin kultur. Hvert språk har sin egen historie, og hvis du ikke prøver å bevare språk, kan disse historiene gå tapt, sa Li. "Å utvikle denne typen talegjenkjenningssystem og dette verktøyet er et skritt for å prøve å bevare disse språkene."

Alex McFarland er en AI-journalist og skribent som utforsker den siste utviklingen innen kunstig intelligens. Han har samarbeidet med en rekke AI-startups og publikasjoner over hele verden.