Tekoäly
Facebook Luo Konekaantamismallin, Joka Voittaa Kääntää 100 Eri Kieltä Suoraan

Facebook on kehittänyt uuden konekaantamismallin, joka voi kääntää tekstejä minkä tahansa kahden kielen välillä 100 kielen joukosta. Vaikka muita konekaantamisjärjestelmiä on olemassa, useimmat muut tekoälykäännösjärjestelmät toimivat kääntämällä tekstin ensin englanniksi ja sitten muuttamalla teksti siitä. Kuten Engadget ilmoitti, Facebookin tekoälykääntäjä toimii ilman englannin kielen käyttämistä välittäjänä, ja se on ilmoitettu saavuttavan noin 90 prosentin tarkin.
Facebookin koulutusdata AI-mallille koostui noin 7,5 miljardista lauseparista, jotka oli jakautunut 100 eri kielelle. Data kerättiin verkosta sarjan verkkokäyttäjien avulla, ja kielet, jotka olivat läsnä keräämässä dataa, tunnistettiin kielen mallilla nimeltä FastText. Kun data oli kerätty, se ajettiin työkalun kautta nimeltä LASER 2.0 poistamaan lauseiden merkitys ja kietoa lauseita eri kielillä yhdessä niiden merkitysten perusteella. LASER 2.0 kehitettiin Facebookissa, ja se käyttää valvomattomia oppimisalgoritmeja luomaan upotukset. Lauseupotukset sisältävät tietoa eri lauseiden suhteista ominaisuuksien kuten käytön tiheyden ja siitä, kuinka lähellä lauseet ovat toisiaan. LASER 2.0 pystyy luomaan lauseparin, joilla on hyvin samanlainen merkitys.
Koulutusdataa ei ollut pelkästään paria lauseiden merkitysten perusteella. Kielet itsessään ryhmiteltiin yhdessä. Tavoitteena oli suunnitella järjestelmä, joka ei vaatinut englannin kielen käyttämistä välikieleksi kahden kielen välillä, Facebookin Angela Fanin, joka johti projekti, huomautti, että monilla alueilla maailmassa puhutaan kahta kieltä, jotka eivät ole englantia. Facebookin insinöörit suorittivat koulutuksen keskittyen kielten pariin, jotka ovat yleisesti käännetty toisistaan. Neljätoista eri kielen ryhmää luotiin perustuen muuttujiin kuten kulttuuriin, kielellisiin samankaltaisuuksiin ja maantieteeseen. Esimerkiksi yksi kielellisistä ryhmistä, jotka tutkijat loivat, sisälsi yleisimmät kielet Intiassa, mukaan lukien kielet urdu, tamili, hindi ja bengali. Tämä tehtiin, jotta yleisesti paritut kielet saisivat laadukkaita käännöksiä.
Kielen ryhmittäin keskittyvä koulutusmenetelmä johti joistakin mielenkiintoisista tuloksista. Havaittiin, että tulokseksi saatu käännösmalli oli tarkin kuin nykyiset mallit tietyille kielipareille. Kun käännettiin englannista valkovenäjäksi, esimerkiksi, tekoäly pystyi soveltamaan tiettyjä malleja, joita se oli oppinut kääntäessään venäjää, koska valkovenäjä on lingvistisesti samankaltainen venäjän kanssa. Vastaavasti käännöstyöt espanjan ja portugalin välillä parani, koska espanja on toiseksi puhutuin kieli, ja siitä oli huomattava määrä koulutusdataa tehtävää varten.
On noin 60 kieltä, joita käännösjärjestelmä ei vielä kata, ja mallin tarkin on parannettava ennen kuin se on valmis käyttöön. Monilla kielillä Kaakkois-Aasiassa ja Afrikassa ei ole riittävästi dataa, jotta voidaan kouluttaa luotettava malli. Tutkimusryhmän on löydettävä keino korvata tämä datan puute. Tutkimusryhmän on myös määritettävä, miten hallita sellaisia rasistisia, seksistisiä tai muuten sopimattomia malleja, joita malli saattaa oppia. Vaikka tutkimusryhmä on käyttänyt sopimattomuuden suodatinta, suodatin toimii pääasiassa englanninkielisille tiedoille.
Konekaantamisjärjestelmää ei ole vielä käytetty Facebookin sosiaalisen median alustalla. Nykyinen malli on vain tutkimustarkoituksiin. Facebook on kuitenkin valmistautumassa suunnittelemaan samanlaisia malleja ja antamaan niiden käsitellä noin 20 miljardia käännöspyynnön, jonka sivu vastaanottaa joka päivä.








