Ajatusjohtajat

Transformerin Vaikutus: Onko Konekaannos Ratkaistu?

Published July 29, 2024

Updated April 4, 2026

Irina Barskaya, PhD, Head Data Scientist at Yandex

Google ilmoitti hiljattain 110 uuden kielen julkaisusta Google Kääntäjässä osana 1000 kielen aloitetta, joka käynnistettiin vuonna 2022. Vuonna 2022 aloittaessa he lisäsivät 24 kieltä. Uusien 110 kielen myötä määrä on nyt 243 kieltä. Tämä nopea laajentuminen oli mahdollista Zero-Shot Konekaannoksen ansiosta, jossa koneoppimismallit oppivat kääntämään toiseen kielen ilman aiempia esimerkkejä. Mutta tulevaisuudessa näemme yhdessä, voiko tämä edistysaskel olla konekaannoksen haasteen lopullinen ratkaisu, ja sillä välin voimme tutkia, miten se voi tapahtua. Mutta ensin sen tarina.

Miten se oli aikaisemmin?

Tilastollinen Konekaannos (SMT)

Tämä oli alkuperäinen menetelmä, jota Google Kääntäjä käytti. Se perustui tilastollisiin malleihin. Ne analysoivat suuria rinnakkaiskokoelmia, käännöslausumien kokoelmia, määrittääkseen todennäköisimmät käännökset. Ensinnäkin järjestelmä käänsi tekstin englanniksi välimuotona ennen kuin se muunnettiin kohdekieleksi, ja se tarvitsi ristiviittauksia laajojen Yhdistyneiden Kansakuntien ja Euroopan parlamentin käsikirjoitusten kanssa. Se oli erilainen perinteisiin lähestymistapoihin nähden, jotka vaativat kattavien kieliopin sääntöjen kokoamista. Ja sen tilastollinen lähestymistapa antoi sille mahdollisuuden sopeutua ja oppia tietojen perusteella ilman kiinteiden kielitieteellisten kehysten luotamista, jotka voivat nopeasti tulla täysin tarpeettomiksi.

Mutta tähän lähestymistapaan liittyy myös joitakin haittoja. Ensinnäkin Google Kääntäjä käytti lausekkeen perusteista käännöstä, jossa järjestelmä jakoi lauseet lausekkeisiin ja käänsi ne yksittäin. Tämä oli parannus sana-sanaltaiseen käännökseen, mutta siinä oli edelleen rajoituksia, kuten kömpelö lauseenvastus ja kontekstin virheet. Se yksinkertaisesti ei ymmärtänyt nyansseja niin kuin me. Lisäksi SMT riippuu voimakkaasti rinnakkaiskokoelmien olemassaolosta, ja mikä tahansa suhteellisen harvinainen kieli olisi vaikea kääntää, koska siitä ei ole riittävästi rinnakkaisdataa.

Neuraalinen Konekaannos (NMT)

Vuonna 2016 Google siirtyi Neuraaliseen Konekaannokseen. Se käyttää syväoppimismalleja kääntämään koko lauseita kokonaisuutena ja kerran, tarjoten sulavampia ja tarkempia käännöksiä. NMT toimii samalla tavalla kuin hienostunut monikielinen avustaja tietokoneessa. Käyttäen sekvenssi-sekvenssi (seq2seq) -arkkitehtuuri NMT prosessoi lauseen yhdessä kielessä ymmärtääkseen sen merkityksen. Sitten – luo vastaavan lauseen toisessa kielessä. Tämä menetelmä käyttää valtavia tietoja oppimiseen, toisin kuin Tilastollinen Konekaannos, joka perustuu tilastollisiin malleihin, jotka analysoivat suuria rinnakkaiskokoelmia määrittääkseen todennäköisimmät käännökset. Toisin kuin SMT, joka keskittyi lausekkeen perusteiseen käännökseen ja tarvitsi paljon manuaalista työtä kehittääkseen ja ylläpitääkseen kielisääntöjä ja sanastoja, NMT:n mahdollisuus prosessoida koko sanajonot antaa sille mahdollisuuden havainnoida kielen nuansseja tehokkaammin. Joten se on parantanut käännösten laatua eri kielipareissa, usein saavuttaen sujuvuuden ja tarkkuuden, joka on verrattavissa ihmiskääntäjien tasoiseen.

Todellisuudessa perinteiset NMT-mallit käyttivät Toistuvia Neuroverkkoja – RNN:itä – ydinarkkitehtuurina, koska ne on suunniteltu prosessoimaan sekvenssimuotoista dataa ylläpitämällä piilotilaa, joka kehittyy kunkin uuden syötteen (sanan tai tokenin) käsittelyn aikana. Tämä piilotila toimii jonkinlaisena muistina, joka havaitsee edeltävien syötteiden kontekstin, antaen mallille mahdollisuuden oppia riippuvuuksia ajassa. Mutta RNN:t olivat laskennallisen kannalta kalliita ja vaikeita paralelisoida tehokkaasti, mikä rajoitti niiden skaalautuvuutta.

Transformerien Esittely

Vuonna 2017 Google Research julkaisi tutkimuksen “Attention is All You Need”, jossa esiteltiin transformerit maailmalle ja merkitsi ratkaisevaa muutosta poispäin RNN:istä neuroverkkoarkkitehtuureissa.

Transformerit perustuvat ainoastaan huomioon, – itsehuomioon, joka antaa konekaannosmalleille mahdollisuuden keskittyä valikoivasti syötejonon tärkeimpiin osiin. Toisin kuin RNN:t, jotka prosessoi sanat sanajonossa lauseissa, itsehuomio arvioi kunkin tokenin koko tekstin yli, määrittääkseen, mitkä ovat tärkeitä ymmärtääkseen sen kontekstin. Tämä samanaikainen laskenta kaikista sanoista antaa transformerille mahdollisuuden havainnoida sekä lyhyen että pitkän aikavälin riippuvuuksia ilman, että se perustuu toistuviin yhteyksiin tai konvoluutiofiltreihin.

Niinpä poistamalla toistuvuuden, transformerit tarjoavat useita avainhyötyjä:

Parallelisointi: Huomiomekanismit voivat laskea rinnakkain eri sekvenssijaksojen yli, mikä nopeuttaa koulutusta modernilla laitteistolla, kuten GPU:illa.
Koulutuksen Tehokkuus: Ne vaativat myös merkittävästi vähemmän koulutusaikaa verrattuna perinteisiin RNN-pohjaisiin tai CNN-pohjaisiin malleihin, tarjoten paremman suorituskyvyn tehtävissä, kuten konekaannoksessa.

Nolla-Shot Konekaannos ja PaLM 2

Vuonna 2022 Google julkaisi tuen 24:lle uudelle kielelle Nolla-Shot Konekaannoksen avulla, mikä merkitsi merkittävää etappia konekaannosteknologiassa. He ilmoittivat myös 1 000 kielen aloitteesta, jonka tavoitteena on tukea maailman 1 000 puhutuimmin kieltä. He ovat nyt julkaisseet 110 uutta kieltä. Nolla-shot konekaannos mahdollistaa käännöksen ilman rinnakkaisdataa lähde- ja kohdekielellä, poistamalla tarpeen luoda koulutusdataa kullekin kieliparille — prosessi, joka oli aikaisemmin kallis ja aikaa vievä, ja joillekin kielipareille myös mahdoton.

Tämä edistysaskel oli mahdollinen transformerien arkkitehtuurin ja itsehuomiomekanismien ansiosta. Transformer-mallin kyky oppia kontekstuaalisia suhteita kielten välillä, yhdistettynä sen skaalautuvuuteen käsitellä useita kieliä samanaikaisesti, mahdollisti tehokkaampien ja vaikuttavampien monikielisten käännösjärjestelmien kehittämisen. Mutta nolla-shot-mallit osoittavat yleensä alempaa laatua kuin ne, jotka on koulutettu rinnakkaisdatasta.

Sitten, jatkamalla transformerien edistymistä, Google esitteli PaLM 2:n vuonna 2023, mikä mahdollisti 110 uuden kielen julkaisun vuonna 2024. PaLM 2 paransi merkittävästi Kääntäjän kykyä oppia läheisesti sukulaisten kielten, kuten Awadhin ja Marwadin (sukulaisten kieliä hindille) ja ranskan kreolikielten, kuten Seychellien ja Mauritiuksen kreolin. Parannukset PaLM 2:ssa, kuten laskennan optimaalinen skaalautuvuus, parannetut tietokannat ja hienostunut suunnittelu — mahdollistivat tehokkaamman kielen oppimisen ja tukivat Google:n jatkuvia ponnisteluja parantaa kieltukea ja tehdä siitä monipuolisempaa ja sopeutuvampaa erilaisiin kielellisiin nyansseihin.

<strong Voidaanko väittää, että konekaannoksen haaste on täysin ratkaistu transformerien avulla?

Tämä kehitys, josta puhumme, kesti 18 vuotta Google:n SMT:n omaksumisesta uusimpiin 110 kieleen Nolla-Shot Konekaannoksen avulla. Tämä edustaa valtavaa loikkaa, joka voi potentiaalisesti vähentää tarvetta laajalle rinnakkaiskokoelman keräämiselle — historiallisesti ja erittäin työlääs tehtävälle, jota alan on jahdannut yli kaksi vuosikymmentä. Mutta väittäminen, että konekaannos on täysin ratkaistu, olisi ennenaikainen, ottaen huomioon sekä tekniset että eettiset huomioon.

Nykyiset mallit kamppailevat edelleen kontekstin ja loogisen johdonmukaisuuden kanssa ja tekevät hienoja virheitä, jotka voivat muuttaa merkitystä, jonka halusit tekstille. Nämä ongelmat ovat erittäin läsnä pidemmissä, monimutkaisemmissa lauseissa, joissa on tarpeen ylläpitää loogista virtaa ja ymmärtää nyansseja saadakseen tulokset. Lisäksi kulttuuriset nyanssit ja idiomaattiset ilmiasut usein häviävät tai menettävät merkityksensä, aiheuttaen käännökset, jotka voivat olla kieliopillisesti oikein, mutta eivät ole tarkoitetun vaikutuksen tai luonnollisen äänen mukaisia.

Esikoulutuksen Data: PaLM 2 ja vastaavat mallit on esikoulutettu monikieliselle tekstikokoelmalle, joka ylittää edeltäjänsä PaLM:n. Tämä parannus antaa PaLM 2:lle mahdollisuuden erinomaiseen suorituskykyyn monikielisissä tehtävissä, korostaa edelleen perinteisten tietokantojen jatkuvaa tärkeyttä käännöslaatua parantamiseksi.

Alaan Kohdistuvat tai Harvat Kielet: Erikoistuneilla aloilla, kuten oikeudellisissa, lääketieteellisissä tai teknisissä aloilla, rinnakkaiskokoelmat varmistavat, että mallit kohtaavat alanmukaisia termejä ja kielellisiä nyansseja. Edistyneet mallit voivat kamppailla alanmukaisen sanaston tai kehittyvien kielitrendien kanssa, aiheuttaen haasteita Nolla-Shot Konekaannokselle. Lisäksi vähävaraiset kielet käännetään edelleen huonosti, koska niillä ei ole riittävästi dataa kouluttaa tarkkoja malleja.

Benchmarking: Rinnakkaiskokoelmat ovat edelleen olennaisia käännösmallien suorituskyvyn arvioinnissa ja benchmarkkaamisessa, erityisesti haasteellisilla kielillä, joilla ei ole riittävästi rinnakkaisdataa. Automaattiset mittarit, kuten BLEU, BLERT ja METEOR, ovat rajoittuneita arvioimaan nyansseja käännöslaatua lukuun ottamatta kieliopista. Mutta me ihmiset on rajoitettu omien harhauksiemme kanssa. Lisäksi ei ole tarpeeksi päteviä arvioijia, ja löytäminen täydellinen kaksikielinen arvioija kullekin kieliparille saadakseen hienot virheet on haastavaa.

Resurssien Tiivis: LLM:ien kouluttamisen ja käyttöönoton resurssien tiivis luonne on edelleen este, joka rajoittaa saatavuutta joillekin sovelluksille tai organisaatioille.

Kulttuurin Säilyttäminen. Eettinen ulottuvuus on syvä. Kuten Isaac Caswell, Google Kääntäjän tutkimusscientisti, kuvailee Nolla-Shot Konekaannosta: “Voit ajatella sitä polyglottilta, joka tietää monia kieliä. Mutta sitten se näkee myös tekstiä 1 000:ssa kielessä, jota ei ole käännetty. Voit kuvitella, jos olet joku suuri polyglotti, ja sitten aloitat lukemisen romaaneja toisella kielellä, voit alkaa ymmärtää, mitä se voisi tarkoittaa perustuen yleiseen kielen tietämykseesi.” Mutta on tärkeää ottaa huomioon pitkän aikavälin vaikutus vähäisiin kieliin, joilla ei ole rinnakkaiskokoelmia, mikä voi vaikuttaa kulttuurin säilyttämiseen, kun riippuvuus siirtyy kielistä itsestään.

Irina Barskaya, PhD, Head Data Scientist at Yandex

Irina Barskaya, PhD, on tunnustettu data-analyytikko, jolla on yli kymmenen vuoden kokemus, joka kattaa sekä tuoteanalytiikan että älykkäiden teknologioiden analytiikan. Hän johti Yasminan, Saudi-Arabian ensimmäisen täysin toimivan paikallistetun älykkään ääniohjaimen, luomisen ja analytiikan, ja käsiteli monimutkaisia tietojen paikallistamista ja merkintöjä modernin standardi-arabian ja Saudi-dialektien osalta. Tällä hetkellä Irina johtaa laadun analytiikkaa Yandex:issa, jossa hän edistää älytekniikkojen kehittymistä.