škrbina Generiranje parafraza korištenjem dubokog učenja s pojačanjem - Voditelji misli - Unite.AI
Povežite se s nama

Umjetna inteligencija

Generiranje parafraza korištenjem dubokog učenja s pojačanjem – voditelji misli

mm
Ažurirano on

Dok pišemo ili razgovaramo, svi smo se pitali postoji li bolji način prenošenja ideje drugima. Koje riječi trebam koristiti? Kako bih trebao strukturirati misao? Kako će oni vjerojatno odgovoriti? Na Phrasee, provodimo puno vremena razmišljajući o jeziku – što funkcionira, a što ne.

Zamislite da pišete naslov za kampanju putem e-pošte koja će ići do 10 milijuna ljudi na vašem popisu promovirajući 20% popusta na otmjeno novo prijenosno računalo.

Koju biste liniju odabrali:

  • Sada možete uzeti dodatnih 20% popusta na svoju sljedeću narudžbu
  • Pripremite se – dodatnih 20% popusta

Iako prenose iste informacije, jedan je postigao gotovo 15% veću stopu otvaranja od drugog (i kladim se da ne možete nadmašiti naš model u predviđanju kojeg?). Dok se jezik često može testirati putem A / B testiranje or višeruki razbojnici, automatsko generiranje parafraza ostaje doista izazovan istraživački problem.

Dvije se rečenice smatraju parafrazama jedna druge ako imaju isto značenje i mogu se koristiti naizmjenično. Druga važna stvar koja se često uzima zdravo za gotovo je je li strojno generirana rečenica tečna.

Za razliku od nadziranog učenja, agenti učenja s pojačanjem (RL) uče kroz interakciju s okolinom i promatranjem nagrada koje dobivaju kao rezultat. Ova donekle nijansirana razlika ima goleme implikacije na način na koji algoritmi rade i način na koji se modeli obučavaju. Učenje dubokog pojačanja koristi neuronske mreže kao aproksimator funkcije kako bi omogućio agentu da nauči kako nadmašiti ljude u složenim okruženjima kao što su Go, Atari i StarCraft II.

Unatoč ovom uspjehu, učenje s potkrepljenjem nije naširoko primijenjeno na probleme iz stvarnog svijeta, uključujući obradu prirodnog jezika (NLP).

Kao dio mog Magistarski rad iz znanosti o podacima, pokazujemo kako se Deep RL može koristiti za nadmašivanje metoda nadziranog učenja u automatskom generiranju parafraza ulaznog teksta. Problem generiranja najbolje parafraze može se promatrati kao pronalaženje niza riječi koji maksimizira semantičku sličnost između rečenica uz zadržavanje tečnosti u izlazu. RL agenti su pogodni za pronalaženje najboljeg skupa radnji za postizanje maksimalne očekivane nagrade u kontrolnim okruženjima.

Za razliku od većine problema u strojnom učenju, najveći problem u većini aplikacija Generation Natural Language (NLG) ne leži u modeliranju, već u evaluaciji. Dok se ljudska evaluacija trenutno smatra zlatnim standardom u NLG evaluaciji, ona pati od značajnih nedostataka uključujući to što je skupa, dugotrajna, zahtjevna za podešavanje i nedostatak ponovljivosti u eksperimentima i skupovima podataka (Han, 2016.). Kao rezultat toga, istraživači već dugo traže automatske metrike koje su jednostavne, generalizirane i koje odražavaju ljudsku prosudbu (Papineni i sur., 2002.).

Najčešće metode automatske procjene u procjeni strojno generiranih naslova slika sažete su u nastavku s njihovim prednostima i nedostacima:

Generiranje parafraza pomoću cjevovoda učenja za pojačanje

Razvili smo sustav pod nazivom ParaPhrasee koji generira visokokvalitetne parafraze. Sustav se sastoji od više koraka kako bi se primijenilo učenje s potkrepljenjem na računalno učinkovit način. Kratki sažetak cjevovoda visoke razine prikazan je u nastavku, a više pojedinosti sadržano je u teza.

skup podataka

Dostupno je nekoliko parafraziranih skupova podataka koji se koriste u istraživanju, uključujući: Microsoft Paraphrase korpus, ACL-ovo natjecanje u semantičkoj sličnosti teksta, Duplicirana pitanja Quorai Twitter dijeljene veze. Odabrali smo MS-COCO s obzirom na njegovu veličinu, čistoću i korištenje kao mjerilo za dva značajna dokumenta o stvaranju parafraza. MS-COCO sadrži 120k slika uobičajenih scena s 5 naslova slika po slici koje daje 5 različitih ljudskih bilješki.

Iako je prvenstveno dizajniran za istraživanje računalnog vida, opisi imaju veliku semantičku sličnost i zanimljive su parafraze. S obzirom na to da su opise slika dali različiti ljudi, oni obično imaju male varijacije u detaljima u sceni, stoga generirane rečenice imaju tendenciju halucinirati detalje.

Model pod nadzorom

Iako se učenje s potkrepljenjem znatno poboljšalo u smislu učinkovitosti uzorka, vremena obuke i općenito najbolje prakse, obuka RL modela od nule još uvijek je relativno spora i nestabilna (Arulkumaran i sur., 2017.). Stoga, umjesto da treniramo od nule, prvo treniramo nadzirani model, a zatim ga fino podešavamo pomoću RL-a.

Koristimo Koder-dekoder okvir modela i procijeniti izvedbu nekoliko osnovnih nadziranih modela. Prilikom finog podešavanja modela pomoću RL-a, fino podešavamo samo mrežu dekodera i tretiramo mrežu kodera kao statičnu. Kao takve smatramo dva glavna okvira:

  • Obuka nadziranog modela od nule korištenjem standardnog/vanilla dekodera kodera s GRU-ovima
  • Korištenje unaprijed obučenih modela ugrađivanja rečenica za koder uključujući: skupna ugrađivanja riječi (GloVe), InferSent i BERT

Nadzirani modeli imaju prilično slične performanse u svim modelima s BERT-om i vanilla koder-dekoderom koji postižu najbolju izvedbu.

Dok je izvedba obično razumna, postoje tri uobičajena izvora pogreške: mucanje, generiranje fragmenata rečenice i halucinacije. Ovo su glavni problemi koje korištenje RL-a želi riješiti.

Model učenja s potkrepljenjem

Implementacija RL algoritama je vrlo zahtjevna, pogotovo kada ne znate može li se problem riješiti. Može doći do problema u implementaciji vašeg okruženja, vaših agenata, vaših hiperparametara, vaše funkcije nagrađivanja ili kombinacije svega navedenog! Ovi se problemi pogoršavaju kada radite duboki RL jer dobivate zabavu od dodatne složenosti debugging neuronske mreže.

Kao i kod svakog otklanjanja pogrešaka, ključno je početi jednostavno. Implementirali smo varijacije dva dobro razumljiva igračka RL okruženja (CartPole i FrozenLake) kako bismo testirali RL algoritme i pronašli ponovljivu strategiju za prijenos znanja iz nadziranog modela.

Utvrdili smo da korištenjem Algoritam glumac-kritičar nadmašio je REINFORCE u tim okruženjima. Što se tiče prijenosa znanja na model glumac-kritičar, otkrili smo da je inicijalizacija težine glumca s obučenim modelom pod nadzorom i prethodna obuka kritičara postigla najbolju izvedbu. Smatrali smo da je izazovno generalizirati sofisticirane pristupe destilaciji politika na nova okruženja jer uvode mnoge nove hiperparametre koji zahtijevaju podešavanje da bi radili.

Potpomognuti ovim uvidima, zatim se okrećemo razvoju pristupa za zadatak generiranja parafraze. Prvo moramo stvoriti okruženje.

Okruženje nam omogućuje jednostavno testiranje utjecaja korištenja različitih metrika procjene kao funkcija nagrađivanja.

Zatim definiramo agenta, s obzirom na njegove brojne prednosti koristimo arhitekturu glumac-kritičar. Glumac se koristi za odabir sljedeće riječi u nizu i ima inicijalizirane njezine težine pomoću nadziranog modela. Kritičar daje procjenu očekivane nagrade koju će država vjerojatno dobiti kako bi akteru pomogla u učenju.

Dizajniranje prave funkcije nagrađivanja

Najvažnija komponenta dizajniranja RL sustava je funkcija nagrađivanja jer je to ono što RL agent pokušava optimizirati. Ako je funkcija nagrađivanja netočna, rezultati će patiti čak i ako svaki drugi dio sustava radi!

Klasičan primjer toga je CoastRunners gdje su istraživači OpenAI postavili funkciju nagrađivanja kao maksimiziranje ukupnog rezultata umjesto pobjede u utrci. Rezultat toga je da je agent otkrio petlju u kojoj je mogao dobiti najvišu ocjenu udarivši turbo motore bez da je ikada završio utrku.

S obzirom na to da je procjena kvalitete parafraza sama po sebi neriješen problem, dizajniranje funkcije nagrađivanja koja automatski obuhvaća ovaj cilj još je teže. Većina aspekata jezika ne može se lijepo razložiti na linearne metrike i ovise o zadatku (Novikova i sur., 2017.).

RL agent često otkriva zanimljivu strategiju za maksimiziranje nagrada koja iskorištava slabosti u metrici procjene umjesto generiranja visokokvalitetnog teksta. To obično rezultira lošom izvedbom metrike koju agent izravno ne optimizira.

Razmatramo tri glavna pristupa:

  1. Mjerni podaci preklapanja riječi

Uobičajena NLP metrika procjene uzima u obzir udio preklapanja riječi između generirane parafraze i rečenice procjene. Što je veće preklapanje to je veća nagrada. Izazov s pristupima na razini riječi je što agent uključuje previše riječi za povezivanje kao što je "a je na od" i nema mjere tečnosti. To rezultira parafrazama vrlo niske kvalitete.

  1. Sličnost i fluentnost na razini rečenice

Glavna svojstva generirane parafraze su da mora biti tečna i semantički slična ulaznoj rečenici. Stoga ih pokušavamo izričito ocijeniti pojedinačno, a zatim kombinirati metrike. Za semantičku sličnost koristimo kosinusnu sličnost između rečeničnih umetanja iz unaprijed obučenih modela uključujući BERT. Za tečnost koristimo ocjenu temeljenu na složenosti rečenice iz GPT-2. Što je kosinusna sličnost i fluentnost veća, to je nagrada veća.

Isprobali smo mnogo različitih kombinacija modela ugrađivanja rečenica i modela tečnosti i dok je izvedba bila razumna, glavni problem s kojim se agent suočio nije bila dovoljna ravnoteža između semantičke sličnosti i tečnosti. Za većinu konfiguracija, agent je dao prednost fluentnosti što je rezultiralo uklanjanjem detalja i većinom entiteta postavljenim "u sredinu" nečega ili premještanjem "na stol" ili "stranu ceste".

Učenje s potkrepljenjem s više ciljeva otvoreno je istraživačko pitanje iu ovom je slučaju vrlo izazovno.

  1. Korištenje kontradiktornog modela kao funkcije nagrađivanja

Budući da se ljudi smatraju zlatnim standardom u ocjenjivanju, treniramo zasebni model koji se zove diskriminator da predvidi jesu li dvije rečenice parafraze jedna druge (slično načinu na koji bi čovjek procjenjivao). Cilj RL modela je tada uvjeriti ovaj model da je generirana rečenica parafraza unosa. Diskriminator generira ocjenu koliko je vjerojatno da su dvije rečenice parafraze jedna druge što se koristi kao nagrada za obuku agenta.

Svakih 5,000 pogađanja diskriminatoru se kaže koja parafraza dolazi iz skupa podataka i koja je generirana kako bi mogao poboljšati svoja buduća pogađanja. Proces se nastavlja nekoliko rundi s agentom koji pokušava prevariti diskriminatora, a diskriminatorom koji pokušava napraviti razliku između generiranih parafraza i parafraza evaluacije iz skupa podataka.

Nakon nekoliko krugova obuke, agent generira parafraze koje nadmašuju nadzirane modele i druge funkcije nagrađivanja.

Zaključak i ograničenja

Suparnički pristupi (uključujući samoigranje za igre) pružaju iznimno obećavajući pristup za obuku RL algoritama da nadmaše izvedbu ljudske razine na određenim zadacima bez definiranja eksplicitne funkcije nagrađivanja.

Iako je RL uspio nadmašiti nadzirano učenje u ovom slučaju, količina dodatnog opterećenja u smislu koda, računanja i složenosti nije vrijedna povećanja performansi za većinu aplikacija. RL je najbolje prepustiti situacijama u kojima se nadzirano učenje ne može lako primijeniti, a funkciju nagrađivanja je lako definirati (kao što su igre Atari). Pristupi i algoritmi su daleko zreliji u nadziranom učenju i signal pogreške je mnogo jači što rezultira mnogo bržim i stabilnijim treningom.

Drugo razmatranje je, kao i kod drugih neuralnih pristupa, da agent može vrlo dramatično zakazati u slučajevima kada se unos razlikuje od ulaza koje je prethodno vidio, zahtijevajući dodatni sloj provjera razumnosti za proizvodne aplikacije.

Eksplozija interesa za RL pristupe i napredak računalne infrastrukture u posljednjih nekoliko godina otvorit će ogromne mogućnosti za primjenu RL-a u industriji, posebno unutar NLP-a.

Andrew Gibbs-Bravo je Data Scientist u Phrasee usmjeren na poboljšanje tehnologije koja stoji iza vodećeg svjetskog pisanja teksta utemeljenog na umjetnoj inteligenciji, Phrasee. Također je suorganizator London Reinforcement Learning Community Meetup i zainteresiran je za sve stvari vezane uz RL, NLP i strojno učenje.