Liity verkostomme!

Tekoäly

Facebook luo konekäännösmallin, joka voi kääntää suoraan 100 eri kielen välillä

mm

Facebook on hiljattain kehittynyt uusi konekäännösmalli joka voi kääntää tekstiä minkä tahansa kieliparin välillä 100 kielen sarjasta. Vaikka muita konekäännösjärjestelmiä on olemassa, useimmat muut tekoälykäännösjärjestelmät toimivat kääntämällä ensin tekstin englanniksi ja muuttamalla tekstin sieltä.  Kuten Engadget raportoi, Facebookin tekoälykääntäjä toimii ilman englannin kieltä välittäjänä, ja sen kerrotaan saavuttavan noin 90 % tarkkuuden.

Facebookin tekoälymallin harjoitustiedot koostuivat noin 7.5 miljardista lauseparista, jotka on jaettu 100 eri kielelle. Tiedot koottiin verkosta käyttämällä useita indeksointirobotteja, ja kerättyjen tietojen kielet tunnistettiin FastText-nimisen kielimallin avulla. Kun tiedot on kerätty, se ajettiin LASER 2.0 -nimisen työkalun kautta poimia eri lausenäytteiden merkitys ja sovittaa eri kielten lauseita yhteen niiden merkityksen perusteella. LASER 2.0 on Facebookin kehittämä, ja se käyttää valvomattomia oppimisalgoritmeja upotusten luomiseen. Lauseupotukset sisältävät tietoa eri lauseiden välisistä suhteista perustuen ominaisuuksiin, kuten käyttötiheyteen ja siihen, kuinka läheltä lauseet näyttävät toisilleen. LASER 2.0 pystyy sitten luomaan lausepareja, joilla on hyvin samankaltainen merkitys.

Harjoitteludataa ei yhdistetty vain lauseiden merkityksen perusteella. Kielet itse ryhmiteltiin yhteen. Tavoitteena oli suunnitella järjestelmä, joka ei edellytä englannin käyttämistä välineenä kahden kielen välillä. Projektin vetäjä Facebookin Angela Fan totesi, että monet alueet ympäri maailmaa puhuvat kahta kieltä, jotka eivät ole englantia. Facebookin insinöörit suorittivat koulutusta keskittymällä kielten yhdistämiseen, joita yleisesti käännetään toisilleen. Luotiin neljätoista erilaista kieliryhmää, jotka perustuivat muuttujiin, kuten kulttuuriin, kielellisiin yhtäläisyyksiin ja maantieteeseen. Esimerkiksi yksi tutkijoiden luomista kieliryhmistä sisälsi Intian yleisimmät kielet, joihin kuuluvat urdu, tamili, hindi ja bengali. Tämä tehtiin, jotta yleisesti yhdistetyt kielet saisivat korkealaatuisia käännöksiä.

Kieliryhmäkeskeinen koulutusmenetelmä johti mielenkiintoisiin tuloksiin. Havaittiin, että tuloksena saadulla käännösmallilla oli suurempi tarkkuus kuin nykyisillä malleilla tietyille kielipareille. Esimerkiksi englannin ja valkovenäläisen käännöksen välillä tekoäly kykeni soveltamaan tiettyjä venäjän kielen kääntämisessä oppimiaan malleja, koska valkovenäläisellä on kielellisiä yhtäläisyyksiä venäjän kanssa. Samoin espanjan ja portugalin käännöstyöt paranivat, koska espanja on toiseksi puhutuin kieli ja tehtävää varten oli huomattava määrä koulutusdataa.

On noin kuusikymmentä kieltä, joita käännösjärjestelmä ei vielä kata, ja mallin tarkkuutta kielillä, joissa ei ole paljon koulutusdataa, on parannettava ennen kuin se on käyttövalmis. Monista kielistä Kaakkois-Aasiassa ja Afrikassa ei ole tarpeeksi tietoa luotettavan mallin kouluttamiseen. Tutkimusryhmän on määritettävä jokin tapa kompensoida tämä tiedon puute. Tutkimusryhmän on myös määritettävä, kuinka hallita rasistisia, seksistisiä tai muuten hävyttäviä malleja, jotka malli on saattanut oppia. Tutkimusryhmä on käyttänyt kiroilusuodatinta, mutta suodatin toimii pääasiassa englanninkielisillä tiedoilla.

Konekäännösjärjestelmää ei ole vielä otettu käyttöön Facebookin sosiaalisen median alustalla. Nykyinen malli on vain tutkimustarkoituksiin. Facebook kuitenkin valmistautuu suunnittelemaan samanlaisia ​​malleja ja pyytämään niitä käsittelemään noin 20 miljardia käännöspyyntöä, jotka sivusto vastaanottaa päivittäin.