výhonek Výzkumníci chtějí rozšířit automatické rozpoznávání řeči na 2,000 XNUMX jazyků - Unite.AI
Spojte se s námi

Umělá inteligence

Výzkumníci chtějí rozšířit automatické rozpoznávání řeči na 2,000 jazyků

Zveřejněno

 on

Tým výzkumníků z Carnegie Mellon University se snaží rozšířit automatické rozpoznávání řeči na 2,000 jazyků. V současné době by jen část z odhadovaných 7,000 8,000 až XNUMX XNUMX mluvených jazyků na celém světě těžila z moderních jazykových technologií, jako je přepis hlasu do textu nebo automatické titulky.

Xinjian Li je Ph.D. student Institutu jazykových technologií na School of Computer Science (LTI).

"Mnoho lidí v tomto světě mluví různými jazyky, ale nástroje jazykové technologie nejsou vyvíjeny pro všechny," řekl. "Rozvoj technologie a dobrého jazykového modelu pro všechny lidi je jedním z cílů tohoto výzkumu."

Li patří do týmu odborníků, kteří se snaží zjednodušit požadavky na data, které jazyky potřebují k vývoji modelu rozpoznávání řeči.

Součástí týmu jsou také členové fakulty LTI Shinji Watanabe, Florian Metze, David Mortensen a Alan Black.

Výzkum s názvem „ASR2K: Rozpoznávání řeči pro přibližně 2,000 XNUMX jazyků bez zvuku“ byl představen na Interspeech 2022 v Jižní Koreji.

Většina existujících modelů rozpoznávání řeči vyžaduje textové a zvukové datové sady. Zatímco textová data existují pro tisíce jazyků, to samé neplatí pro zvuk. Tým chce eliminovat potřebu zvukových dat tím, že se zaměří na lingvistické prvky, které jsou společné v mnoha jazycích.

Technologie rozpoznávání řeči se běžně zaměřují na foném jazyka, což jsou odlišné zvuky, které jej odlišují od jiných jazyků. Ty jsou pro každý jazyk jedinečné. Jazyky zároveň mají telefony, které popisují, jak slovo fyzicky zní, a jednomu fonému může odpovídat více telefonů. Zatímco jednotlivé jazyky mohou mít různé fonémy, základní telefony mohou být stejné.

Tým pracuje na modelu rozpoznávání řeči, který se méně spoléhá na fonémy a více na informace o tom, jak jsou telefony sdíleny mezi jazyky. To pomáhá snížit úsilí potřebné k vytvoření samostatných modelů pro každý jednotlivý jazyk. Spárováním modelu s fylogenetickým stromem, což je diagram, který mapuje vztahy mezi jazyky, pomáhá s pravidly výslovnosti. Model týmu a stromová struktura jim umožnily aproximovat řečový model pro tisíce jazyků i bez zvukových dat.

"Snažíme se odstranit tento požadavek na audio data, což nám pomáhá přejít ze 100 na 200 jazyků na 2,000 XNUMX," řekl Li. „Jde o první výzkum, který se zaměřuje na tak velký počet jazyků, a my jsme první tým, jehož cílem je rozšířit jazykové nástroje do tohoto rozsahu.“

Výzkum, i když je stále v rané fázi, zlepšil stávající nástroje jazykové aproximace o 5 %.

„Každý jazyk je velmi důležitým faktorem v jeho kultuře. Každý jazyk má svůj vlastní příběh, a pokud se nepokusíte jazyky zachovat, mohou se tyto příběhy ztratit,“ řekl Li. "Vývoj tohoto druhu systému rozpoznávání řeči a tohoto nástroje je krokem k tomu, abychom se pokusili tyto jazyky zachovat."

Alex McFarland je AI novinář a spisovatel, který zkoumá nejnovější vývoj v oblasti umělé inteligence. Spolupracoval s řadou AI startupů a publikací po celém světě.