stubs Facebook izveido mašīntulkošanas modeli, kas var tieši tulkot starp 100 dažādām valodām - Unite.AI
Savienoties ar mums

Mākslīgais intelekts

Facebook izveido mašīntulkošanas modeli, kas var tieši tulkot no 100 dažādām valodām

mm
Atjaunināts on

Facebook nesen ir attīstījies jauns mašīntulkošanas modelis kas var tulkot tekstu starp jebkuru valodu pāri no 100 valodu kopas. Lai gan pastāv citas mašīntulkošanas sistēmas, lielākā daļa citu AI tulkošanas sistēmu darbojas, vispirms tulkojot tekstu angļu valodā un pēc tam pārvēršot tekstu no turienes.  Kā ziņoja Engadget, Facebook AI tulkotājs darbojas, neizmantojot angļu valodu kā starpnieku, un tiek ziņots, ka tas spēj sasniegt aptuveni 90% precizitāti.

Facebook apmācību dati AI modelim sastāvēja no aptuveni 7.5 miljardiem teikumu pāru, kas sadalīti 100 dažādās valodās. Dati tika apkopoti no tīmekļa, izmantojot virkni tīmekļa rāpuļprogrammu, un apkopotajos datos esošās valodas tika identificētas, izmantojot valodas modeli ar nosaukumu FastText. Kad dati tika savākti, tas tika palaists, izmantojot rīku LASER 2.0 iegūt dažādu teikumu paraugu nozīmi un saskaņot teikumus dažādās valodās, pamatojoties uz to nozīmi. LASER 2.0 izstrādāja Facebook, un tajā tiek izmantoti nekontrolēti mācību algoritmi, lai izveidotu iegulšanu. Teikumu iegulumos ir ietverta informācija par attiecībām starp dažādiem teikumiem, pamatojoties uz tādām pazīmēm kā lietošanas biežums un to, cik tuvu teikumi šķiet viens otram. Pēc tam LASER 2.0 spēj izveidot teikumu pāris, kuriem ir ļoti līdzīga nozīme.

Apmācības dati tika savienoti pārī, pamatojoties ne tikai uz teikumu nozīmi. Pašas valodas tika sagrupētas. Mērķis bija izveidot sistēmu, kurā angļu valoda nebūtu jāizmanto kā starpnieks starp divām valodām, un projekta vadītāja bija Facebook Angela Fan, norādot, ka daudzos pasaules reģionos runā divās valodās, kas nav angļu valoda. Facebook inženieri veica apmācību, koncentrējoties uz valodu savienošanu pārī, kuras parasti tiek tulkotas viena no otras. Tika izveidotas četrpadsmit dažādas valodu grupas, kuru pamatā bija tādi mainīgie lielumi kā kultūra, valodu līdzības un ģeogrāfija. Piemēram, vienā no pētnieku izveidotajām valodu grupām bija visizplatītākās valodas visā Indijā, tostarp urdu, tamilu, hindi un bengāļu valodas. Tas tika darīts, lai bieži savienotās valodas saņemtu augstas kvalitātes tulkojumus.

Uz valodu grupām vērsta apmācības metode sniedz interesantus rezultātus. Tika konstatēts, ka iegūtajam tulkošanas modelim bija lielāka precizitāte nekā pašreiz esošajiem modeļiem noteiktiem valodu pāriem. Piemēram, tulkojot no angļu un baltkrievu valodas, mākslīgais intelekts varēja izmantot noteiktus modeļus, ko tas bija apguvis, tulkojot krievu valodu, jo baltkrievu valodai ir lingvistiskas līdzības ar krievu valodu. Tāpat uzlabojās tulkošanas centieni starp spāņu un portugāļu valodu, jo spāņu valoda ir otrā visizplatītākā valoda, un šim uzdevumam bija ievērojams apmācības datu apjoms.

Ir aptuveni sešdesmit valodas, kuras tulkošanas sistēma vēl neaptver, un modeļa precizitāte valodās bez daudziem apmācības datiem ir jāuzlabo, pirms tas ir gatavs lietošanai. Daudzām valodām Dienvidaustrumāzijā un Āfrikā trūkst datu apjoma, kas nepieciešams, lai apmācītu uzticamu modeli. Pētnieku grupai būs jānosaka veids, kā kompensēt šo datu trūkumu. Pētnieku grupai ir arī jānosaka, kā kontrolēt rasistiskus, seksistiskus vai citādi rupjus modeļus, ko modelis varētu būt iemācījies. Lai gan pētnieku grupa ir izmantojusi rupjības filtru, filtrs galvenokārt darbojas uz angļu valodas datiem.

Mašīntulkošanas sistēma vēl nav izmantota Facebook sociālo mediju platformā. Pašreizējais modelis ir paredzēts tikai pētniecības nolūkiem. Tomēr Facebook gatavojas izstrādāt līdzīgus modeļus un likt tiem apstrādāt aptuveni 20 miljardus tulkošanas pieprasījumu, ko vietne saņem katru dienu.