Connect with us

Artificiell intelligens

Forskare vill utöka automatisk taligenkänning till 2 000 språk

mm

Ett team av forskare vid Carnegie Mellon University vill utöka automatisk taligenkänning till 2 000 språk. Just nu kan endast en del av de uppskattade 7 000 till 8 000 talade språken runt om i världen dra nytta av moderna språkteknologier som röst-till-text-transkription eller automatisk undertextning.

Xinjian Li är en doktorand i School of Computer Science’s Language Technologies Institute (LTI).

“Många människor i världen talar olika språk, men språkteknologiverktyg utvecklas inte för alla av dem”, sa han. “Att utveckla teknologi och en bra språkmodell för alla människor är ett av målen med denna forskning.”

Li tillhör ett team av experter som vill förenkla datakraven som språk behöver för att utveckla en taligenkänningmodell.

Teamet inkluderar också LTI-fakultetsmedlemmarna Shinji Watanabe, Florian Metze, David Mortensen och Alan Black.

Forskningen med titeln “ASR2K: Speech Recognition for Around 2,000 Languages Without Audio” presenterades på Interspeech 2022 i Sydkorea.

De flesta befintliga taligenkänningmodeller kräver text- och ljuduppsättningsdata. Medan textdata finns för tusentals språk, gäller samma sak inte för ljud. Teamet vill eliminera behovet av ljuddata genom att fokusera på språkliga element som är gemensamma för många språk.

Taligenkänningsteknologier fokuserar vanligtvis på ett språks fonem, som är distinkta ljud som skiljer det från andra språk. Dessa är unika för varje språk. Samtidigt har språk fon som beskriver hur ett ord låter fysiskt, och flera fon kan motsvara ett enda fonem. Medan separata språk kan ha olika fonem, kan de underliggande fonerna vara desamma.

Teamet arbetar på en taligenkänningmodell som förlitar sig mindre på fonem och mer på information om hur fon delas mellan språk. Detta hjälper till att minska den ansträngning som behövs för att bygga separata modeller för varje enskilt språk. Genom att para modellen med en fylogenetisk träd, som är en diagram som kartlägger relationerna mellan språk, hjälper det med uttalningsregler. Teamets modell och trädstrukturen har möjliggjort att de kan approximera talmodellen för tusentals språk även utan ljuddata.

“Vi försöker ta bort detta ljuddatakrav, vilket hjälper oss att gå från 100 till 200 språk till 2 000”, sa Li. “Detta är den första forskningen som riktar sig mot ett så stort antal språk, och vi är det första teamet som siktar på att utöka språkverktyg till denna omfattning.”

Forskningen, som fortfarande är i ett tidigt skede, har förbättrat befintliga språkapproximeringsverktyg med 5%.

“Varje språk är en mycket viktig faktor i sin kultur. Varje språk har sin egen historia, och om du inte försöker bevara språken, kan dessa historier gå förlorade”, sa Li. “Att utveckla detta slags taligenkänningssystem och detta verktyg är ett steg för att försöka bevara dessa språk.”

Alex McFarland är en AI-journalist och författare som utforskar de senaste utvecklingarna inom artificiell intelligens. Han har samarbetat med många AI-startups och publikationer över hela världen.