Inteligență artificială
Cercetătorii își propun să extindă recunoașterea automată a vorbirii la 2.000 de limbi

O echipă de cercetători de la Universitatea Carnegie Mellon își propune să extindă recunoașterea automată a vorbirii la 2.000 de limbi. În acest moment, doar o parte din cele aproximativ 7.000 până la 8.000 de limbi vorbite din întreaga lume ar putea beneficia de tehnologii moderne de limbaj, cum ar fi transcrierea vocalelor sau subtitrarea automată.
Xinjian Li este student doctorand în cadrul Institutului de Tehnologii Lingvistice (LTI) al Școlii de Științe Computaționale.
“Mulți oameni din lume vorbesc limbi diverse, dar uneltele de tehnologie a limbajului nu sunt dezvoltate pentru toate”, a spus el. “Dezvoltarea tehnologiei și a unui model de limbaj bun pentru toți oamenii este unul dintre obiectivele acestei cercetări.”
Li face parte dintr-o echipă de experți care își propun să simplifice cerințele de date pentru limbile care necesită un model de recunoaștere a vorbirii.
Echipa include, de asemenea, membri ai facultății LTI, Shinji Watanabe, Florian Metze, David Mortensen și Alan Black.
Cercetarea, intitulată “ASR2K: Recunoașterea vorbirii pentru aproximativ 2.000 de limbi fără audio“, a fost prezentată la Interspeech 2022 în Coreea de Sud.
Majoritatea modelelor de recunoaștere a vorbirii existente necesită seturi de date text și audio. În timp ce datele text există pentru mii de limbi, același lucru nu este valabil și pentru audio. Echipa dorește să elimine nevoia de date audio, concentrându-se pe elementele lingvistice care sunt comune multor limbi.
Tehnologiile de recunoaștere a vorbirii se concentrează, de obicei, pe fonemele unei limbi, care sunt sunete distincte care o diferențiază de alte limbi. Acestea sunt unice pentru fiecare limbă. În același timp, limbile au foneme care descriu cum sună fizic un cuvânt, și multiple foneme pot corespunde unui singur fonem. În timp ce limbile separate pot avea foneme diferite, fonemele subiacente pot fi aceleași.
Echipa lucrează la un model de recunoaștere a vorbirii care se bazează mai puțin pe foneme și mai mult pe informații despre cum sunt împărtășite fonemele între limbi. Acest lucru ajută la reducerea efortului necesar pentru a construi modele separate pentru fiecare limbă. Prin asocierea modelului cu un arbore filogenetic, care este un diagramă care cartografiază relațiile dintre limbi, ajută la regulile de pronunție. Modelul echipei și structura arborelui au permis să se aproximeze modelul de vorbire pentru mii de limbi, chiar și fără date audio.
“Încercăm să eliminăm această cerință de date audio, ceea ce ne ajută să trecem de la 100 la 200 de limbi la 2.000”, a spus Li. “Acesta este primul studiu care vizează un număr atât de mare de limbi, și suntem prima echipă care își propune să extindă uneltele de limbaj la această scară.”
Cercetarea, deși încă într-un stadiu incipient, a îmbunătățit uneltele de aproximare a limbilor existente cu 5%.
“Fiecare limbă este un factor foarte important în cultura sa. Fiecare limbă are propria sa poveste, și dacă nu încerci să păstrezi limbile, aceste povești ar putea fi pierdute”, a spus Li. “Dezvoltarea acestui sistem de recunoaștere a vorbirii și a acestui instrument este un pas pentru a încerca să păstrăm aceste limbi.”












