Tekoäly
Baidu voittaa Google And Microsoft, luo uuden tekniikan kielen ymmärtämiseksi

Baidu, yksi Kiinan suurimmista teknologiayrityksistä, on kehittänyt uuden menetelmän opettaa tekoälyjä ymmärtämään kieltä. Kuten TechnologyReview raportoi, yritys voitti äskettäin Microsoftin ja Google:n General Language and Understanding Evaluation (GLUE) -kilpailussa ja saavutti huipputulokset.
GLUE koostuu yhdeksästä eri testistä, joista jokainen mittaa eri tehtävää, joka on tärkeä kielen ymmärtämiseksi, kuten nimien ja asioiden tunnistaminen lauseessa ja pronominin “se” käytön ymmärtäminen, kun on useita mahdollisia kandidaatteja. Keskimääräinen ihminen saa GLUE:ssa noin 87 pistettä sadasta. Baidun uusi malli, ERNIE, rikkoi 90 pisteen rajan.
Tutkijat yrittävät aina parantaa malliensa suorituskykyä GLUE:ssa, ja siksi Baidun asettama nykyinen standardi todennäköisesti ylittyään pian. Mitä tekee Baidun saavutuksesta merkittävän, on se, että heidän käyttämänsä oppimismenetelmä näyttää pystyvän yleistämään muihin kieliin. Vaikka malli kehitettiin kiinan kielen tulkkaamiseen, samat periaatteet tekevät siitä paremman myös englannin kielen tulkkaamiseen. ERNIE tulee sanoista “Enhanced Representation through knowledge Integration”, ja se seuraa BERT (“Bidirectional Encoder Representations from Transformers”) -kielimallin kehittämistä.
BERT asetti uuden standardin kielen ymmärtämiseksi, koska se oli bidirektionaalinen malli. Aikaisemmat kielimallit pystyivät vain tulkkaamaan dataa, joka virtasi yhteen suuntaan, katsomalla sanaa, joka tuli joko ennen tai jälkeen kohdesanaa kontekstina. BERT pystyi toteuttamaan bidirektionaalisia lähestymistapaa, joka pystyi käyttämään sekä edeltäviä että myöhempiä sanoja lauseessa auttamaan kohdesanan merkityksen selvittämisessä. BERT käyttää maskausTekniikkaa bidirektionaalisen analyysin mahdollistamiseksi, valitsemalla sanan lauseesta ja piilottamalla sen, mikä jakaa mahdollisen kontekstin sanalle edeltävään ja seuraavaan kontekstiin.
Englannin kielessä sana on hallitseva semanttinen yksikkö, ihmiset katsovat kokonaisia sanoja yksittäisten merkkien sijaan merkityksen selvittämiseksi. On mahdollista poistaa sana kontekstistaan ja silti sana säilyttää merkityksensä, ja yksittäisten merkkien merkitys on lähes aina sama. Sen sijaan kiinan kieli riippuu enemmän siitä, miten merkit yhdistetään toisiin merkkeihin merkityksen selvittämiseksi. Merkit voivat tarkoittaa eri asioita riippuen siitä, mitkä merkit ovat niiden ympärillä.
Baidun tutkimusryhmä otti perusmallin, jonka BERT käytti, ja laajensi sitä piilottamalla merkkijonoja sen sijaan, että käyttäisi kokonaisia sanoja. Tekoälyjärjestelmä opetettiin myös erottamaan satunnaiset merkkijonot ja merkitykselliset merkkijonot, jotta oikeat merkkijonot voitiin piilottaa. Tämä tekee ERNIE:sta taitavan hakemassa tietoa tekstidokumenteista ja suorittamassa konekäännöstä. Tutkimusryhmä totesi myös, että heidän koulutusmenetelmänsä johti malliin, joka pystyi erottamaan englannin kielen lauseita useista muista malleista paremmin. Tämä johtuu siitä, että englanti käyttää toisinaan, vaikka harvoin, sana-yhdistelmiä, jotka ilmaisevat eri merkityksiä, kun ne ovat yhdessä verrattuna siihen, kun ne ovat erillään. Oikeat nimet ja idiomeja tai slangisanoja, kuten “chip off the old block”, ovat esimerkkejä tällaisista kielellisistä ilmiöistä.
ERNIE käyttää useita muita koulutustekniikoita suorituskyvyn optimoimiseksi, mukaan lukien lausejärjestyksen ja etäisyyden analyysiä tekstien tulkkaamiseksi. Jatkuva koulutusmenetelmä käytetään myös, jolloin ERNIE pystyy koulutumaan uudelle datale ja oppimaan uusia kuvioita unohtamatta aikaisemmin hankittua tietoa.
Baidu käyttää tällä hetkellä ERNIE:tä parantamaan hakutuloksien laatua. ERNIE:n uusin arkkitehtuuri tullaan esittämään tulevassa tutkimuksessa, joka esitetään 2020 Association for the Advancement of Artificial Intelligence -konferenssissa.












