stub Perfrazų generavimas naudojant gilųjį mokymąsi – minčių lyderiai – Unite.AI
Susisiekti su mumis

Dirbtinis intelektas

Perfrazavimo generavimas naudojant gilųjį mokymąsi – minties lyderiai

mm
Atnaujinta on

Rašydami ar kalbėdami visi svarstėme, ar yra geresnis būdas perduoti idėją kitiems. Kokius žodžius turėčiau vartoti? Kaip turėčiau struktūrizuoti mintį? Kaip jie greičiausiai reaguos? At Frazė, daug laiko praleidžiame galvodami apie kalbą – kas tinka, o kas ne.

Įsivaizduokite, kad rašote temos eilutę el. pašto kampanijai, kuri bus skirta 10 milijonų jūsų sąraše esančių žmonių, reklamuojančių 20 % nuolaidą naujam prabangiam nešiojamam kompiuteriui.

Kurią eilutę pasirinktumėte:

  • Dabar galite gauti papildomą 20% nuolaidą kitam užsakymui
  • Pasiruoškite – papildoma 20% nuolaida

Nors jie perduoda tą pačią informaciją, vienas pasiekė beveik 15 % didesnį atidarymo rodiklį nei kitas (ir aš lažinuosi, kad negalite įveikti mūsų modelio nuspėdami, kuris iš jų?). Nors kalbą dažnai galima išbandyti A / B testavimas or daugiarankiai banditai, automatiškai generuoti parafrazes išlieka tikrai sudėtinga tyrimo problema.

Du sakiniai laikomi vienas kito parafrazėmis, jei jie turi tą pačią reikšmę ir gali būti vartojami pakaitomis. Kitas svarbus dalykas, kuris dažnai laikomas savaime suprantamu dalyku, yra tai, ar mašina sugeneruotas sakinys yra sklandus.

Skirtingai nuo prižiūrimo mokymosi, stiprinimo mokymosi (RL) agentai mokosi bendraudami su savo aplinka ir stebėdami už tai gaunamą atlygį. Šis šiek tiek niuansuotas skirtumas turi didžiulį poveikį algoritmų veikimui ir modelių mokymui. Gilaus sutvirtinimo mokymasis naudoja neuroninius tinklus kaip funkcijos aproksimatorių, kad agentas išmoktų pranokti žmones sudėtingose ​​aplinkose, pvz. Go, Atari ir StarCraft II.

Nepaisant šios sėkmės, stiprinamasis mokymasis nebuvo plačiai taikomas sprendžiant realias problemas, įskaitant natūralios kalbos apdorojimą (NLP).

Kaip dalis mano Duomenų mokslo magistro baigiamasis darbas, parodome, kaip Deep RL gali būti naudojamas norint pranokti prižiūrimus mokymosi metodus automatiškai generuojant įvesties teksto parafrazes. Geriausios parafrazės generavimo problema gali būti vertinama kaip žodžių serijos radimas, kuris maksimaliai padidina sakinių semantinį panašumą ir išlaiko sklandumą. RL agentai puikiai tinka ieškant geriausių veiksmų rinkinio, kad būtų pasiektas didžiausias laukiamas atlygis valdymo aplinkoje.

Priešingai nei dauguma mašininio mokymosi problemų, didžiausia daugelio natūralių kalbų generavimo (NLG) programų problema yra ne modeliavimas, o vertinimas. Nors žmogaus vertinimas šiuo metu laikomas auksiniu NLG vertinimo standartu, jis turi didelių trūkumų, įskaitant tai, kad jis yra brangus, reikalauja daug laiko, sudėtingas derinti ir nepakankamas atkuriamumas tarp eksperimentų ir duomenų rinkinių. (Hanas, 2016 m.). Todėl mokslininkai jau seniai ieško automatinių metrikų, kurios būtų paprastos, apibendrinamos ir atspindi žmogaus nuomonę. (Papineni ir kt., 2002).

Toliau apibendrinti dažniausiai naudojami automatinio vertinimo metodai, vertinant mašininio sukurtų vaizdų antraštes su jų privalumais ir trūkumais:

Perfrazų generavimas naudojant sustiprinimo mokymosi vamzdyną

Sukūrėme sistemą pavadinimu ParaPhrasee, kuri generuoja aukštos kokybės parafrazes. Sistema susideda iš kelių žingsnių, kad būtų galima efektyviai apskaičiuoti pastiprinimo mokymąsi. Žemiau pateikiama trumpa aukšto lygio dujotiekio santrauka, o išsamesnė informacija pateikta disertacija.

Duomenų rinkinys

Yra keletas perfrazavimo duomenų rinkinių, kurie naudojami atliekant tyrimus, įskaitant: Microsoft parafrazės korpusas, ACL semantinio teksto panašumo konkursas, „Quora“ pasikartojantys klausimaiir „Twitter“ bendrinamos nuorodos. Mes pasirinkome MS-COCO atsižvelgiant į jo dydį, švarumą ir naudojimą kaip etaloną dviem žymiems parafrazių generavimo dokumentams. MS-COCO yra 120 5 įprastų scenų vaizdų su 5 vaizdų antraštėmis kiekviename vaizde, kurį pateikia XNUMX skirtingi žmogaus anotatoriai.

Nors jis pirmiausia skirtas kompiuterinio regėjimo tyrimams, antraštės paprastai turi didelį semantinį panašumą ir yra įdomios parafrazės. Atsižvelgiant į tai, kad vaizdų antraštes pateikia skirtingi žmonės, jų detalės scenoje paprastai skiriasi, todėl sugeneruoti sakiniai linkę haliucinuoti detales.

Prižiūrimas modelis

Nors patobulintas mokymasis labai pagerėjo imties efektyvumo, mokymo trukmės ir bendros geriausios praktikos požiūriu, RL modelių mokymas nuo nulio vis dar yra palyginti labai lėtas ir nestabilus. (Arulkumaran ir kt., 2017). Todėl, užuot treniruojantys nuo nulio, pirmiausia apmokome prižiūrimą modelį, o tada jį sureguliuojame naudodami RL.

Mes naudojame an Enkoderis-dekoderis modelio sistemą ir įvertinti kelių bazinių prižiūrimų modelių veikimą. Tiksliai derindami modelį naudodami RL, mes tik tiksliai deriname dekoderio tinklą ir traktuojame kodavimo tinklą kaip statinį. Taigi mes laikome dvi pagrindines sistemas:

  • Prižiūrimo modelio mokymas nuo nulio naudojant standartinį / vanilinį kodavimo dekoderį su GRU
  • Iš anksto paruoštų sakinių įdėjimo modelių naudojimas koduotojui, įskaitant: sujungtus žodžių įterpimus (GloVe), InferSent ir BERT

Prižiūrimų modelių veikimas yra gana panašus į modelius, kurių BERT ir vanilės kodavimo dekoderis pasiekia geriausią našumą.

Nors spektaklis paprastai būna pagrįstas, yra trys dažni klaidų šaltiniai: mikčiojimas, sakinio fragmentų generavimas ir haliucinacijos. Tai yra pagrindinės problemos, kurias siekiama išspręsti naudojant RL.

Sustiprinimo mokymosi modelis

RL algoritmų įgyvendinimas yra labai sudėtingas, ypač kai nežinote, ar problemą galima išspręsti. Gali kilti problemų diegiant aplinką, agentus, hiperparametrus, atlygio funkciją arba derinant visus aukščiau išvardintus dalykus! Šios problemos paaštrėja, kai atliekate gilų RL, nes džiaugiatės dėl papildomo sudėtingumo neuroninių tinklų derinimas.

Kaip ir atliekant bet kokį derinimą, tai labai svarbu pradėti paprastai. Įdiegėme dviejų gerai suprantamų žaislų RL aplinkų („CartPole“ ir „FrozenLake“) variantus, kad išbandytume RL algoritmus ir rastume pakartojamą žinių perdavimo iš prižiūrimo modelio strategiją.

Mes nustatėme, kad naudojant an Aktoriaus-kritiko algoritmas šiose aplinkose pralenkė REINFORCE. Kalbant apie žinių perdavimą aktoriaus-kritiko modeliui, mes nustatėme, kad aktoriaus svorių inicijavimas su apmokytu prižiūrimu modeliu ir išankstinis kritiko mokymas pasiekė geriausią pasirodymą. Mums atrodė, kad sudėtinga apibendrinti sudėtingus politikos distiliavimo metodus naujoms aplinkoms, nes jie įveda daug naujų hiperparametrų, kuriuos reikia suderinti, kad jie veiktų.

Remdamiesi šiomis įžvalgomis, mes pradedame kurti parafrazių generavimo užduotį. Pirmiausia turime sukurti aplinką.

Aplinka leidžia mums lengvai išbandyti skirtingų vertinimo metrikų, kaip atlygio funkcijų, naudojimo poveikį.

Tada apibrėžiame agentą, atsižvelgdami į daugelį jo pranašumų, naudojame aktorių kritikų architektūrą. Aktorius naudojamas sekančiam žodžiui pasirinkti ir jo svoriai inicijuojami naudojant prižiūrimą modelį. Kritikas pateikia įvertinimą, kokio atlygio valstybė gali gauti, kad padėtų aktoriui mokytis.

Tinkamos atlygio funkcijos kūrimas

Svarbiausias RL sistemos kūrimo komponentas yra atlygio funkcija, nes būtent tai RL agentas bando optimizuoti. Jei atlygio funkcija yra neteisinga, rezultatai nukentės, net jei visos kitos sistemos dalys veiks!

Klasikinis to pavyzdys yra CoastRunners kur OpenAI tyrėjai nustatė, kad atlygio funkcija yra maksimaliai padidinti bendrą rezultatą, o ne laimėti lenktynes. To rezultatas yra tai, kad agentas atrado kilpą, kurioje jis galėjo gauti aukščiausią balą paspaudęs turbiną, niekada nebaigęs lenktynių.

Atsižvelgiant į tai, kad parafrazių kokybės vertinimas yra neišspręsta problema, sukurti atlygio funkciją, kuri automatiškai užfiksuotų šį tikslą, yra dar sunkiau. Daugelis kalbos aspektų nėra gerai suskaidomi į linijinę metriką ir priklauso nuo užduoties (Novikova ir kt., 2017).

RL agentas dažnai atranda įdomią strategiją, kaip maksimaliai padidinti atlygį, išnaudojant vertinimo metrikos trūkumus, o ne generuojant aukštos kokybės tekstą. Dėl to metrikos, kurios agentas tiesiogiai neoptimizuoja, našumas paprastai būna prastas.

Mes svarstome tris pagrindinius metodus:

  1. Žodžių sutapimo metrika

Įprastoje NLP vertinimo metrikoje atsižvelgiama į žodžių sutapimo tarp sukurtos parafrazės ir įvertinimo sakinio proporciją. Kuo didesnis sutapimas, tuo didesnis atlygis. Žodžių lygmens metodų iššūkis yra tas, kad agentas apima per daug jungiamųjų žodžių, pvz., „a yra įjungtas“, ir nėra sklandumo mato. Dėl to susidaro labai prastos kokybės parafrazės.

  1. Sakinio lygmens panašumo ir sklandumo metrika

Pagrindinės sukurtos parafrazės savybės yra ta, kad ji turi būti sklandi ir semantiškai panaši į įvesties sakinį. Todėl stengiamės juos aiškiai įvertinti atskirai, tada sujungiame metrikas. Semantiniam panašumui naudojame kosinuso panašumą tarp sakinių įterpimų iš iš anksto paruoštų modelių, įskaitant BERT. Siekdami sklandumo, naudojame balą, pagrįstą GPT-2 sakinio sumišimu. Kuo didesnis kosinuso panašumas ir sklandumo balai, tuo didesnis atlygis.

Išbandėme daugybę skirtingų sakinio įterpimo modelių ir sklandumo modelių derinių ir nors našumas buvo pagrįstas, pagrindinė problema, su kuria susidūrė agentas, buvo nepakankamas semantinio panašumo ir sklandumo pusiausvyra. Daugumoje konfigūracijų agentas pirmenybę teikė sklandumui, todėl buvo pašalintos detalės, o dauguma objektų buvo patalpinti ko nors „viduryje“ arba perkelti „ant stalo“ arba „kelio pusėje“.

Daugiaobjektyvus sustiprinimo mokymasis yra atviras tyrimo klausimas ir šiuo atveju yra labai sudėtingas.

  1. Priešpriešinio modelio naudojimas kaip atlygio funkcija

Atsižvelgiant į tai, kad žmonės laikomi auksiniu vertinimo standartu, mes parengiame atskirą modelį, vadinamą diskriminatoriumi, kad nuspėtų, ar du sakiniai yra vienas kito perfrazavimas (panašiai, kaip vertintų žmogus). Tada RL modelio tikslas yra įtikinti šį modelį, kad sugeneruotas sakinys yra įvesties perfrazė. Diskriminatorius sugeneruoja balą, kaip tikėtina, kad du sakiniai bus vienas kito perfrazavimas, kuris naudojamas kaip atlygis mokant agentą.

Kas 5,000 XNUMX spėjimų diskriminatoriui nurodoma, kuri parafrazė atkeliavo iš duomenų rinkinio ir kuri buvo sugeneruota, kad galėtų pagerinti būsimus spėjimus. Procesas tęsiasi keletą raundų, kai agentas bando apgauti diskriminatorių, o diskriminatorius bando atskirti sugeneruotas parafrazes ir vertinimo parafrazes iš duomenų rinkinio.

Po kelių mokymo etapų agentas sukuria parafrazes, kurios pranoksta prižiūrimus modelius ir kitas atlygio funkcijas.

Išvada ir apribojimai

Priešingi metodai (įskaitant savarankišką žaidimą žaidimuose) yra labai perspektyvus būdas lavinti RL algoritmus, viršijančius žmogaus našumą atliekant tam tikras užduotis, neapibrėžiant aiškios atlygio funkcijos.

Nors šiuo atveju RL sugebėjo pranokti prižiūrimą mokymąsi, papildomų pridėtinių išlaidų, susijusių su kodu, skaičiavimu ir sudėtingumu, suma nėra verta daugumos programų našumo padidėjimo. RL geriausia palikti situacijoms, kai prižiūrimas mokymasis negali būti lengvai pritaikytas, o atlygio funkciją lengva apibrėžti (pvz., Atari žaidimai). Prižiūrimo mokymosi metodai ir algoritmai yra daug brandesni, o klaidos signalas yra daug stipresnis, todėl mokymas vyksta daug greičiau ir stabiliau.

Kitas aspektas, kaip ir kiti neuroniniai metodai, yra tai, kad agentas gali labai smarkiai sugesti tais atvejais, kai įvestis skiriasi nuo anksčiau matytų įvesties, todėl gamybinėms programoms reikalingas papildomas protingumo patikrinimų lygis.

Per pastaruosius kelerius metus išaugęs susidomėjimas RL metodais ir skaičiavimo infrastruktūros pažanga atvers didžiules galimybes taikyti RL pramonėje, ypač NLP.

Andrew Gibbs-Bravo yra duomenų mokslininkas Frazė daugiausia dėmesio skirta „Phrasee“ pasaulyje pirmaujančio dirbtinio intelekto teksto rašymo technologijoms tobulinti. Jis taip pat yra vienas iš Londono sustiprinimo mokymosi bendruomenės susitikimo organizatorių ir domisi viskuo, kas susiję su RL, NLP ir mašininiu mokymusi.