Connect with us

Tekoäly

Paraphraasien generointi syvällä vahvistusoppimisella – ajattelijat

mm

Kun kirjoitamme tai puhumme, olemme kaikki joskus miettineet, onko parempi tapa viestiä ajatuksia muille. Mitkä sanat minun pitäisi käyttää? Miten minun pitäisi rakentaa ajatus? Miten he todennäköisesti vastaavat? Phrasee:ssä viettämme paljon aikaa miettimällä kieltä – mitä toimii ja mitä ei.

Kuvitella, että kirjoitat aiheen email-kampanjalle, joka lähetetään 10 miljoonalle ihmiselle luettelossasi ja tarjoaa 20 % alennuksen uudesta, hienosta kannettavasta tietokoneesta.

Mikä rivi sinä valitsisit:

  • Voit nyt saada 20 % alennuksen seuraavasta tilauksestasi
  • Valmistaudu – 20 % alennus

Vaikka ne välittävät saman tiedon, toinen saavutti lähes 15 % korkeamman avausprosentin kuin toinen (ja uskon, että et voi voittaa malliamme sen ennustamisessa, kumpi ?). Vaikka kieltä voidaan usein testata A/B-testauksella tai moni-käsi-rosvoilla, automaattisen parafrasointien generointi on edelleen haasteellinen tutkimusongelma.

Kaksi lausetta pidetään toistensa parafraseina, jos ne jakavat saman merkityksen ja voidaan käyttää vaihdellen. Toinen tärkeä asia, jota usein otetaan itsestään selvänä, on se, onko koneella generoitu lause sujuva.

Toisin kuin valvottu oppiminen, vahvistusoppimisen (RL) agentit oppivat vuorovaikussa ympäristönsä kanssa ja havaintojen kautta, joita he saavat tuloksena. Tämä hieman hienostunut ero vaikuttaa massiivisesti siihen, miten algoritmit toimivat ja miten mallit koulutetaan. Syvä vahvistusoppiminen käyttää neuroverkkoja funktioarvioijana, jotta agentti voi oppia, miten se voi ylittää ihmisten suorituskyvyn monimutkaisissa ympäristöissä, kuten Go, Atari ja StarCraft II.

Vaikka tämä menestys, vahvistusoppimista ei ole laajalti sovellettu todellisiin maailman ongelmiin, mukaan lukien luonnollisen kielen prosessointi (NLP).

Olen osana MSc-tutkielmaani Data Sciencesta, osoitamme, miten syvä RL voidaan käyttää ylittämään valvottuja oppimismenetelmiä automaattisesti generoimalla parafraseja syötetekstistä. Parhaan parafrasin generointiongelma voidaan nähdä etsintänä siitä sanasarjasta, joka maksimoi semanttisen samankaltaisuuden lauseiden välillä ja ylläpitää sujuvaa tulostetta. RL-agentit ovat hyvin sovellettavissa löytämään paras toimintosarja saavuttaa odotettu maksimirajoitus ohjausympäristössä.

Toisin kuin useimmissa koneoppimisen ongelmissa, suurin ongelma useimmissa luonnollisen kielen generoinnin (NLG) sovelluksissa ei ole mallinnuksessa, vaan arvioinnissa. Vaikka ihmisen arviointi on tällä hetkellä kultainen standardi NLG-arvioinnissa, se kärsii merkittävistä haitoista, mukaan lukien se, että se on kallista, aikaa vievää, haastavaa säätää ja puutteellista jäljitettävyydestä kokeiden ja tietojoukkojen välillä (Han, 2016). Tämän seurauksena tutkijat ovat pitkään etsineet automaattisia mittareita, jotka ovat yksinkertaisia, yleistettävissä ja heijastavat ihmisen tuomioita (Papineni et al., 2002).

Yleisimmät automaattiset arviointimenetelmät koneella generoituja kuvakuvauksia arvioitaessa on yhteenvetona alla olevassa taulukossa heidän etuoikeuksineen ja haittoineen:

Paraphraasien generointi vahvistusoppimisen avulla

Kehittämme järjestelmän nimeltä ParaPhrasee, joka generoi laadukkaita parafraseja. Järjestelmä koostuu useista vaiheista, jotta vahvistusoppimista voidaan soveltaa laskennallisesti tehokkaalla tavalla. Lyhyt yhteenveto korkean tason putkistosta on alla olevassa taulukossa, ja lisätietoja on tutkielmassa.

Tietojoukko

On olemassa useita parafrasi-tietoja, joita käytetään tutkimuksessa, mukaan lukien: Microsoftin parafrasi-korpus, ACL:n semanttisen tekstin samankaltaisuuskilpailu, Quoran duplikaatti-kysymykset ja Twitterin jaetut linkit. Olemme valinneet MS-COCO:n, sen koosta, puhtaudasta ja käytöstä benchmarkkina kahdessa merkittävässä parafrasigeneroinnin tutkimuksessa. MS-COCO sisältää 120k kuvia yleisistä kohtauksista ja 5 kuvatekstiä per kuva, jotka on annettu 5 eri ihmisen annotoijan toimesta.

Vaikka se on pääasiassa suunniteltu tietokoneen näön tutkimukseen, kuvatekstit ovat korkean semanttisen samankaltaisuuden ja ovat mielenkiintoisia parafraseja. Koska kuvatekstit on annettu eri ihmisille, ne ovat taipuvaisia pieniin yksityiskohtien muutoksiin, joten generoidut lauseet taipuvat hallucinoimaan yksityiskohtia.

Valvottu malli

Vaikka vahvistusoppiminen on parantunut merkittävästi näyte-tehokkuuden, koulutusajat, yleiset parhaat käytännöt, vahvistusoppimisen mallien koulutus alusta alkaen on edelleen vertaamattoman hitaampi ja epävakaa (Arulkumaran et al., 2017). Sen sijaan, että koulutettaisiin alusta alkaen, koulutamme ensin valvottua mallia ja sitten hienosäätämme sitä vahvistusoppimisen avulla.

Käytämme koodari-dekoodari-mallirakennetta ja arvioimme useiden perusvalvottujen mallien suorituskykyä. Kun hienosäätämme mallia vahvistusoppimisen avulla, hienosäätämme vain dekoodarin verkkoa ja käsittlemme koodarin verkkoa staattisena. Tällöin käsittelemme kahta päärahastoa:

  • Koulutamme valvottua mallia alusta alkaen käyttäen standard/vaniljan koodari-dekoodari-GRU:ta
  • Käytämme esikoulutettuja lause- upotusmalleja koodarina, mukaan lukien: pooled sanan upotukset (GloVe), InferSent ja BERT

Valvottujen mallien suorituskyky on melko samanlainen malleissa, ja BERT ja vanilja-koodari-dekoodari saavuttavat parhaimman suorituskyvyn.

Vaikka suorituskyky on melko hyvä, on kolme yleistä virhelähdettä: tukahduttaminen, generoiminen lausefragmentteja ja hallucinaatioita. Nämä ovat pääongelmia, joita vahvistusoppimisen käyttäminen pyrkii ratkaisemaan.

Vahvistusoppimisen malli

Vahvistusoppimisen algoritmien toteuttaminen on erittäin haasteellista, etenkin silloin, kun et tiedä, voidaanko ongelmaa ratkaista. On ongelmia ympäristön toteutuksessa, agenteissasi, hyperparametreissasi, palkkiofunktiossasi tai yhdistelmässä niistä kaikista!

Nämä ongelmat ovat pahempia, kun tehdään syvää vahvistusoppimista, koska saat lisäksi neuroverkkojen virheenkorjaamisen ilon.

Kuten kaikessa virheenkorjaamisessa, on tärkeää aloittaa yksinkertaisesti. Toteutimme muunnelmia kahdesta hyvin ymmärretystä leluympäristöstä (CartPole ja FrozenLake) testataksemme vahvistusoppimisen algoritmeja ja löytääksemme toistettavan strategian tietämysiirtoa valvotusta mallista.

Löysimme, että toimija-kriittinen algoritmi ylitti REINFORCE:n näissä ympäristöissä. Toimijan painotusten aloittaminen koulutetun valvottuna mallina ja kriittisen esikoulutus saavutti parhaimman suorituskyvyn. Löysimme, että se oli haasteellista yleistää monimutkaisia käyttäjän jakamislähestymistapoja uusiin ympäristöihin, koska ne esittävät monia uusia hyperparametrejä, jotka vaativat säätämistä toimimaan.

Tuetuin näistä oivalluksista, käännymme sitten kehittämään lähestymistapaa parafrasigeneroinnin tehtävään. Ensinnäkin meidän on luotava ympäristö.

Ympäristö mahdollistaa meille helposti testata eri arviointimittareiden vaikutusta palkkiofunktioiden avulla.

Määrittelemme sitten agentin, ja koska siinä on monia etuja, käytämme toimija-kriittistä arkkitehtuuria. Toimija valitsee seuraavan sanan sanajonossa, ja sen painotukset aloitetaan koulutetulla valvottuna mallilla. Kriittinen antaa arvion odotetusta palkkiosta, jonka tila todennäköisesti saa, jotta toimija voi oppia.

Oikean palkkiofunktion suunnittelu

Tärkein komponentti vahvistusoppimisen järjestelmän suunnittelussa on palkkiofunktiota, koska vahvistusoppimisen agentti pyrkii optimoimaan sitä. Jos palkkiofunktiota on virheellinen, tulokset kärsivät, vaikka jokainen muu osa järjestelmästä toimisi!

Klassinen esimerkki tästä on CoastRunners, jossa OpenAI-tutkijat asettivat palkkiofunktion maksimoimaan yhteispisteytys sen sijaan, että voittaisivat kilpailun. Tuloksena agentti keksi silmukan, jossa se saattoi saada korkeimman pisteytyksen osuessaan turboja ilman, että koskaan suorittaisi kilpailua.

https://www.youtube.com/watch?time_continue=2&v=tlOIHko8ySg&feature=emb_title

Koska parafrasien laadun arviointi itsessään on ratkaisematon ongelma, palkkiofunktion suunnittelu, joka ottaa automaattisesti tämän kohteen, on vielä haasteellisempi. Useimmat kielen osat eivät jaksa kauniisti lineaarisia mittareita, ja ne ovat tehtävän riippuvaisia (Novikova et al., 2017).

Vahvistusoppimisen agentti usein keksii mielenkiintoisen strategian maksimoimaan palkkioita, joka hyödyntää arviointimittauksen heikkouksia sen sijaan, että generoisi laadukkaita tekstejä. Tämä johtaa usein heikkoon suorituskykyyn mittareilla, joita agentti ei suoraan optimoi.

Käsittelemme kolmea päälähestymistapaa:

  1. Sanan ylialemittaus

Yleiset NLP-arviointimitat ottaa huomioon sanan ylialemittauksen osuuden generoidun parafrasin ja arviointilauseen välillä. Mitä suurempi ylialemitta, sitä suurempi palkkio. Haaste sanatasolla on, että agentti sisältää liian monta liittämistä sanoja, kuten “on” ja “of”, eikä ole mitään sujuvuuden mittausta. Tämä johtaa erittäin matalanlaatuisiin parafraseihin.

  1. Lausekohtainen samankaltaisuus ja sujuvuusmittaukset

Generoidun parafrasin pääominaisuudet ovat, että se on sujuva ja semanttisesti samankaltainen kuin syöte-lause. Tämän vuoksi yritämme arvioida nämä yksittäin ja yhdistää mittaukset. Semanttisen samankaltaisuuden osalta käytämme kosini-samankaltaisuutta esikoulutettujen mallien lause- upotuksista, mukaan lukien BERT. Sujuvuuden osalta käytämme pisteytystä, joka perustuu lauseen hämmästyneisyyteen GPT-2:sta. Mitä suurempi kosini-samankaltaisuus ja sujuvuuspisteet, sitä suurempi palkkio.

Kokeilimme monia eri yhdistelmiä lause- upotusmalleja ja sujuvuusmalleja, ja vaikka suorituskyky oli kohtuullinen, pääongelma, jota agentti kohtasi, oli se, ettei se riittävästi tasapainottanut semanttista samankaltaisuutta sujuvuuden kanssa. Useimmissa konfiguraatioissa agentti priorisoi sujuvuutta, mikä johti yksityiskohtien poistamiseen ja useimpien entiteettien asettamiseen “keskelle” tai “pöydän” tai “tien” vieressä.

Monitavoitteinen vahvistusoppiminen on avoin tutkimuskysymys ja on erittäin haasteellinen tässä tapauksessa.

  1. Käyttäminen vastakkaisen mallin palkkiofunktiona

Koska ihmiset ovat kultainen standardi arvioinnissa, koulutamme erillisen mallin, jota kutsutaan diskriminaattoriksi, ennustamaan, ovatko kaksi lausetta parafraseja toisilleen (samalla tavalla kuin ihminen arvioisi). Vahvistusoppimisen mallin tavoitteena on sitten vakuuttaa tämä malli, että generoitu lause on parafrasi syöte-lauseesta. Diskriminaattori antaa pisteytyksen, kuinka todennäköisesti kaksi lausetta ovat parafraseja toisilleen, jota käytetään palkkiona agentin kouluttamiseen.

Jokaisen 5 000 arvauksen jälkeen diskriminaattori kerrotaan, mikä parafrasi tuli tietojoukosta ja mikä generoitiin, jotta se voi parantaa tulevia arvauksiaan. Prosessi jatkuu useita kierroksia, joissa agentti yrittää huijata diskriminaattoria ja diskriminaattori yrittää erottaa generoidut parafrasit arviointiparafraseista tietojoukosta.

Useiden kierrosten jälkeen agentti generoi parafraseja, jotka ylittävät valvottujen mallien suorituskyvyn ja muita palkkiofunktiota.

Johtopäätös ja rajoitukset

Vastakkaiset lähestymistavat (mukaan lukien itsepelit pelien kohdalla) tarjoavat erittäin lupaavan lähestymistavan kouluttaa vahvistusoppimisen algoritmeja ylittämään ihmisten suorituskyky tiettyjen tehtävien suhteen ilman eksplisiittisen palkkiofunktion määrittelyä.

Vaikka vahvistusoppiminen pystyi ylittämään valvottua oppimista tässä tapauksessa, ylimääräinen ylitys koodin, laskennan ja monimutkaisuuden suhteen ei ole arvoa suorituskyvyn parantamiseksi useimmissa sovelluksissa. Vahvistusoppiminen on parasta soveltaa tilanteisiin, joissa valvottu oppiminen ei voida helposti soveltaa, ja palkkiofunktiota on helppo määritellä (kuten Atari-peleissä). Lähestymistavat ja algoritmit ovat paljon kypsiä valvotussa oppimisessa, ja virhesignaali on paljon vahvempi, mikä johtaa nopeampaan ja vakaampaan koulutukseen.

Toinen huomioon otettava asia on, kuten muissakin neuroverkkolähestymistavoissa, että agentti voi epäonnistua dramaattisesti tapauksissa, joissa syöte on erilainen kuin mitä se on aikaisemmin nähnyt, vaatien lisäkerroksen järkevyyden tarkistusta tuotantosovelluksissa.

Vahvistusoppimisen lähestymistapojen ja laskennallisen infrastruktuurin kehittyminen viime vuosina avaa valtavat mahdollisuudet soveltaa vahvistusoppimista teollisuudessa, erityisesti luonnollisen kielen prosessoinnissa.

Andrew Gibbs-Bravo on Data Scientist Phrasee keskittyen parantamaan Phraseen maailmanlaajuista AI-Powered Copywriting -teknologiaa. Hän on myös Lontoon vahvistusoppimisen yhteisön Meetupin co-organisaattori ja on kiinnostunut kaikista asioista RL, NLP ja koneoppimisesta.