stub Forskere ser på at udvide automatisk talegenkendelse til 2,000 sprog - Unite.AI
Følg os

Kunstig intelligens

Forskere ser på at udvide automatisk talegenkendelse til 2,000 sprog

Udgivet

 on

Et team af forskere ved Carnegie Mellon University søger at udvide automatisk talegenkendelse til 2,000 sprog. Lige nu vil kun en del af de anslåede 7,000 til 8,000 talte sprog rundt om i verden drage fordel af moderne sprogteknologier som stemme-til-tekst-transskription eller automatisk billedtekst.

Xinjian Li er ph.d. studerende på School of Computer Science's Language Technologies Institute (LTI).

"Mange mennesker i denne verden taler forskellige sprog, men sprogteknologiske værktøjer bliver ikke udviklet til dem alle," sagde han. "At udvikle teknologi og en god sprogmodel for alle mennesker er et af målene med denne forskning."

Li tilhører et team af eksperter, der ønsker at forenkle de datakrav, sprog har brug for for at udvikle en talegenkendelsesmodel.

Teamet omfatter også LTI-fakultetsmedlemmer Shinji Watanabe, Florian Metze, David Mortensen og Alan Black.

Forskningen med titlen "ASR2K: Talegenkendelse til omkring 2,000 sprog uden lyd” blev præsenteret ved Interspeech 2022 i Sydkorea.

Et flertal af de eksisterende talegenkendelsesmodeller kræver tekst- og lyddatasæt. Mens tekstdata findes for tusindvis af sprog, er det samme ikke tilfældet for lyd. Holdet ønsker at eliminere behovet for lyddata ved at fokusere på sproglige elementer, der er fælles på tværs af mange sprog.

Talegenkendelsesteknologier fokuserer normalt på et sprogs fonem, som er forskellige lyde, der adskiller det fra andre sprog. Disse er unikke for hvert sprog. Samtidig har sprog telefoner, der beskriver, hvordan et ord lyder fysisk, og flere telefoner kan svare til et enkelt fonem. Mens separate sprog kan have forskellige fonemer, kan de underliggende telefoner være de samme.

Holdet arbejder på en talegenkendelsesmodel, der er mindre afhængig af fonemer og mere på information om, hvordan telefoner deles mellem sprog. Dette hjælper med at reducere den nødvendige indsats for at bygge separate modeller for hvert enkelt sprog. Ved at parre modellen med et fylogenetisk træ, som er et diagram, der kortlægger relationerne mellem sprog, hjælper det med udtaleregler. Holdets model og træstrukturen har gjort det muligt for dem at tilnærme talemodellen for tusindvis af sprog selv uden lyddata.

"Vi forsøger at fjerne dette lyddatakrav, som hjælper os med at flytte fra 100 til 200 sprog til 2,000," sagde Li. "Dette er den første forskning, der er målrettet mod et så stort antal sprog, og vi er det første hold, der sigter på at udvide sprogværktøjer til dette omfang."

Forskningen har, mens den stadig er i et tidligt stadium, forbedret eksisterende sprogtilnærmelsesværktøjer med 5 %.

"Hvert sprog er en meget vigtig faktor i dets kultur. Hvert sprog har sin egen historie, og hvis du ikke forsøger at bevare sprog, kan disse historier gå tabt,” sagde Li. "At udvikle denne form for talegenkendelsessystem og dette værktøj er et skridt til at forsøge at bevare disse sprog."

Alex McFarland er en AI-journalist og forfatter, der udforsker den seneste udvikling inden for kunstig intelligens. Han har samarbejdet med adskillige AI-startups og publikationer verden over.