cung Studiuesit kërkojnë të zgjerojnë njohjen automatike të të folurit në 2,000 gjuhë - Unite.AI
Lidhu me ne

Inteligjenca artificiale

Studiuesit kërkojnë të zgjerojnë njohjen automatike të të folurit në 2,000 gjuhë

Publikuar

 on

Një ekip studiuesish në Universitetin Carnegie Mellon po kërkon të zgjerojë njohjen automatike të të folurit në 2,000 gjuhë. Për momentin, vetëm një pjesë e 7,000 deri në 8,000 gjuhëve të folura në mbarë botën do të përfitonin nga teknologjitë moderne gjuhësore, si transkriptimi nga zëri në tekst ose titrimi automatik.

Xinjian Li është Ph.D. student në Institutin e Teknologjive Gjuhësore të Shkollës së Shkencave Kompjuterike (LTI).

"Shumë njerëz në këtë botë flasin gjuhë të ndryshme, por mjetet e teknologjisë gjuhësore nuk janë duke u zhvilluar për të gjitha," tha ai. "Zhvillimi i teknologjisë dhe një modeli i mirë gjuhësor për të gjithë njerëzit është një nga qëllimet e këtij hulumtimi."

Li i përket një ekipi ekspertësh që kërkojnë të thjeshtojnë kërkesat e të dhënave që u duhen gjuhëve për të zhvilluar një model të njohjes së të folurit.

Ekipi përfshin gjithashtu anëtarë të fakultetit të LTI-së, Shinji Watanabe, Florian Metze, David Mortensen dhe Alan Black.

Hulumtimi i titulluar “ASR2K: Njohja e të folurit për rreth 2,000 gjuhë pa audio” u prezantua në Interspeech 2022 në Korenë e Jugut.

Shumica e modeleve ekzistuese të njohjes së të folurit kërkojnë grupe të dhënash teksti dhe audio. Ndërsa të dhënat e tekstit ekzistojnë për mijëra gjuhë, e njëjta gjë nuk është e vërtetë për audion. Ekipi dëshiron të eliminojë nevojën për të dhëna audio duke u fokusuar në elementët gjuhësorë që janë të zakonshëm në shumë gjuhë.

Teknologjitë e njohjes së të folurit zakonisht fokusohen në fonemën e një gjuhe, të cilat janë tinguj të veçantë që e dallojnë atë nga gjuhët e tjera. Këto janë unike për çdo gjuhë. Në të njëjtën kohë, gjuhët kanë telefona që përshkruajnë se si tingëllon fizikisht një fjalë dhe telefona të shumtë mund të korrespondojnë me një fonemë të vetme. Ndërsa gjuhët e veçanta mund të kenë fonema të ndryshme, telefonat themelorë mund të jenë të njëjtë.

Ekipi po punon për një model të njohjes së të folurit që mbështetet më pak në fonema dhe më shumë në informacionin se si telefonat ndahen midis gjuhëve. Kjo ndihmon në reduktimin e përpjekjeve të nevojshme për të ndërtuar modele të veçanta për secilën gjuhë individuale. Duke çiftuar modelin me një pemë filogjenetike, e cila është një diagram që harton marrëdhëniet midis gjuhëve, ndihmon me rregullat e shqiptimit. Modeli i ekipit dhe struktura e pemës u kanë mundësuar atyre të përafrojnë modelin e të folurit për mijëra gjuhë edhe pa të dhëna audio.

"Ne po përpiqemi të heqim këtë kërkesë të të dhënave audio, e cila na ndihmon të kalojmë nga 100 në 200 gjuhë në 2,000," tha Li. "Ky është hulumtimi i parë që synon një numër kaq të madh gjuhësh dhe ne jemi ekipi i parë që synon të zgjerojë mjetet gjuhësore në këtë fushë."

Hulumtimi, ndonëse ende në një fazë të hershme, ka përmirësuar mjetet ekzistuese të përafrimit të gjuhës me 5%.

“Çdo gjuhë është një faktor shumë i rëndësishëm në kulturën e saj. Çdo gjuhë ka historinë e vet dhe nëse nuk përpiqeni të ruani gjuhët, ato histori mund të humbasin,” tha Li. "Zhvillimi i këtij lloji të sistemit të njohjes së të folurit dhe këtij mjeti është një hap në përpjekjen për të ruajtur ato gjuhë."

Alex McFarland është një gazetar dhe shkrimtar i AI që eksploron zhvillimet më të fundit në inteligjencën artificiale. Ai ka bashkëpunuar me startupe dhe publikime të shumta të AI në mbarë botën.