Mākslīgais intelekts

Pārfrāzes ģenerēšana, izmantojot dziļu pastiprināšanas mācīšanos – domu vadītāji

Atjaunināts on Decembris 9, 2022

Rakstot vai runājot, mēs visi esam domājuši, vai ir labāks veids, kā darīt zināmu ideju citiem. Kādus vārdus man vajadzētu lietot? Kā man vajadzētu strukturēt domu? Kā viņi varētu reaģēt? Plkst Frāze, mēs pavadām daudz laika, domājot par valodu – kas der un kas ne.

Iedomājieties, ka rakstāt tēmas rindiņu e-pasta kampaņai, kas tiks nosūtīta 10 miljoniem jūsu sarakstā iekļauto cilvēku, kas reklamēs 20% atlaidi izdomātam jaunam klēpjdatoram.

Kuru līniju jūs izvēlētos:

Tagad savam nākamajam pasūtījumam varat saņemt papildu 20% atlaidi
Sagatavojies – papildus 20% atlaide

Lai gan tie sniedz vienu un to pašu informāciju, viens sasniedza gandrīz par 15% lielāku atvēršanas līmeni nekā otrs (un varu derēt, ka jūs nevarat pārspēt mūsu modeli, paredzot, kurš no tiem?). Lai gan valodu bieži var pārbaudīt A / B pārbaude or daudzroku bandīti, automātiska parafrāžu ģenerēšana joprojām ir patiešām sarežģīta pētniecības problēma.

Divi teikumi tiek uzskatīti par viens otra pārfrāzēm, ja tiem ir viena un tā pati nozīme un tos var lietot savstarpēji aizstājot. Vēl viena svarīga lieta, kas bieži tiek uzskatīta par pašsaprotamu, ir tas, vai mašīnveidotais teikums ir raiti.

Atšķirībā no uzraudzītās mācīšanās, pastiprināšanas mācīšanās (RL) aģenti mācās, mijiedarbojoties ar savu vidi un novērojot atlīdzību, ko viņi saņem rezultātā. Šai nedaudz niansētajai atšķirībai ir milzīga ietekme uz algoritmu darbību un modeļu apmācību. Dziļa pastiprināšanas mācīšanās izmanto neironu tīklus kā funkciju aproksimatoru, lai aģents varētu iemācīties pārspēt cilvēkus sarežģītās vidēs, piemēram, Go, Atari un StarCraft II.

Neskatoties uz šiem panākumiem, pastiprināšanas mācības nav plaši piemērotas reālās pasaules problēmām, tostarp dabiskās valodas apstrādei (NLP).

Kā daļa no manas Maģistra darbs datu zinātnē, mēs demonstrējam, kā Deep RL var izmantot, lai pārspētu uzraudzītās mācību metodes, automātiski ģenerējot ievades teksta parafrāzes. Labākās parafrāzes ģenerēšanas problēmu var uzskatīt par tādu vārdu sērijas atrašanu, kas maksimāli palielina semantisko līdzību starp teikumiem, vienlaikus saglabājot izvades plūdumu. RL aģenti ir labi piemēroti, lai atrastu labāko darbību kopumu, lai kontroles vidē sasniegtu maksimālo paredzamo atlīdzību.

Pretstatā lielākajai daļai mašīnmācības problēmu lielākā problēma lielākajā daļā Dabiskās valodas paaudzes (NLG) lietojumprogrammu ir nevis modelēšanā, bet gan novērtēšanā. Lai gan cilvēku novērtējums pašlaik tiek uzskatīts par zelta standartu NLG novērtēšanā, tai ir būtiski trūkumi, tostarp dārga, laikietilpīga, sarežģīta noregulēšana un eksperimentu un datu kopu reproducējamības trūkums. (Han, 2016). Rezultātā pētnieki jau sen ir meklējuši automātiskus rādītājus, kas ir vienkārši, vispārināmi un atspoguļo cilvēka spriedumu. (Papineni et al., 2002).

Tālāk ir apkopotas visizplatītākās automātiskās novērtēšanas metodes, novērtējot mašīnas ģenerētu attēlu parakstus, un to plusi un mīnusi:

Pārfrāzes ģenerēšana, izmantojot pastiprināšanas mācību cauruļvadu

Mēs izstrādājām sistēmu ParaPhrasee, kas ģenerē augstas kvalitātes parafrāzes. Sistēma sastāv no vairākiem soļiem, lai skaitļošanas ziņā efektīvi izmantotu pastiprināšanas mācīšanos. Tālāk ir parādīts īss augsta līmeņa cauruļvada kopsavilkums ar sīkāku informāciju tēze.

Datu kopas

Ir pieejamas vairākas pārfrāzes datu kopas, kas tiek izmantotas pētījumos, tostarp: Microsoft parafrāzes korpuss, ACL semantiskā teksta līdzības konkurss, Quora dublētie jautājumi, un Twitter koplietotās saites. Mēs esam atlasījuši MS-COCO ņemot vērā tā lielumu, tīrību un izmantošanu kā etalonu diviem ievērojamiem parafrāžu ģenerēšanas dokumentiem. MS-COCO satur 120 5 kopīgu ainu attēlu ar 5 attēlu parakstiem katrā attēlā, ko nodrošina XNUMX dažādi cilvēku anotatori.

Lai gan tas galvenokārt ir paredzēts datora redzes izpētei, parakstiem parasti ir augsta semantiskā līdzība un tie ir interesanti pārfrāzes. Tā kā attēlu parakstus nodrošina dažādi cilvēki, tiem mēdz būt nelielas atšķirības ainā sniegtajās detaļās, tāpēc ģenerētie teikumi mēdz halucinēt detaļas.

Uzraudzīts modelis

Lai gan pastiprināšanas mācīšanās ir ievērojami uzlabojusies attiecībā uz izlases efektivitāti, apmācību laiku un vispārējo labāko praksi, RL modeļu apmācība no nulles joprojām ir salīdzinoši ļoti lēna un nestabila. (Arulkumaran et al., 2017). Tāpēc tā vietā, lai apmācītu no nulles, mēs vispirms apmācām uzraudzītu modeli un pēc tam precizējam to, izmantojot RL.

Mēs izmantojam Kodētājs-dekodētājs modeļu ietvaru un novērtēt vairāku bāzes līnijas uzraudzītu modeļu veiktspēju. Precizējot modeli, izmantojot RL, mēs precizējam tikai dekodētāja tīklu un uztveram kodētāja tīklu kā statisku. Tādējādi mēs uzskatām divas galvenās sistēmas:

Uzraudzītā modeļa apmācība no nulles, izmantojot standarta/vaniļas kodētāja dekodētāju ar GRU
Iepriekš sagatavotu teikumu iegulšanas modeļu izmantošana kodētājam, tostarp: apvienoti vārdu iegulšanas (GloVe), InferSent un BERT

Uzraudzītie modeļi parasti darbojas diezgan līdzīgi visos modeļos, kuros BERT un vaniļas kodētājs-dekodētājs nodrošina vislabāko veiktspēju.

Lai gan sniegums mēdz būt saprātīgs, ir trīs izplatīti kļūdu avoti: stostīšanās, teikuma fragmentu ģenerēšana un halucinācijas. Šīs ir galvenās problēmas, ko RL mērķis ir atrisināt.

Pastiprināšanas mācīšanās modelis

RL algoritmu ieviešana ir ļoti sarežģīta, it īpaši, ja nezināt, vai problēmu var atrisināt. Var rasties problēmas, ieviešot jūsu vidi, aģentus, hiperparametrus, atlīdzības funkciju vai visu iepriekš minēto kombināciju! Šīs problēmas saasinās, veicot dziļu RL, jo jūs izbaudāt papildu sarežģītību neironu tīklu atkļūdošana.

Tāpat kā ar visu atkļūdošanu, tas ir ļoti svarīgi sākt vienkārši. Mēs ieviesām divu labi saprotamu rotaļlietu RL vidi (CartPole un FrozenLake) variācijas, lai pārbaudītu RL algoritmus un atrastu atkārtojamu stratēģiju zināšanu nodošanai no uzraudzītā modeļa.

Mēs atklājām, ka, izmantojot an Aktiera-kritiķa algoritms šajās vidēs pārspēja REINFORCE. Runājot par zināšanu nodošanu aktiera-kritiķa modelim, mēs atklājām, ka aktiera svaru inicializācija ar apmācīto uzraudzīto modeli un kritiķa iepriekšēja apmācība sasniedza vislabāko sniegumu. Mēs atklājām, ka ir grūti vispārināt sarežģītas politikas destilācijas pieejas jaunām vidēm, jo tās ievieš daudzus jaunus hiperparametrus, kuru darbībai nepieciešama noregulēšana.

Pateicoties šīm atziņām, mēs pievēršamies pieejas izstrādei parafrāžu ģenerēšanas uzdevumam. Vispirms mums ir jārada vide.

Vide ļauj mums viegli pārbaudīt dažādu novērtēšanas metrikas kā atlīdzības funkciju izmantošanas ietekmi.

Pēc tam mēs definējam aģentu, ņemot vērā tā daudzās priekšrocības, mēs izmantojam aktiera kritiķu arhitektūru. Aktieris tiek izmantots, lai atlasītu nākamo vārdu secībā, un tā svari tiek inicializēti, izmantojot uzraudzīto modeli. Kritiķis sniedz aplēsi par gaidāmo atlīdzību, ko valsts varētu saņemt, lai palīdzētu aktierim mācīties.

Pareizās atlīdzības funkcijas izstrāde

Vissvarīgākā RL sistēmas izstrādes sastāvdaļa ir atlīdzības funkcija, jo to RL aģents cenšas optimizēt. Ja atlīdzības funkcija ir nepareiza, rezultāti cietīs pat tad, ja darbosies visas pārējās sistēmas daļas!

Klasisks piemērs tam ir CoastRunners kur OpenAI pētnieki izvirzīja atlīdzības funkciju kā kopējā rezultāta maksimālu palielināšanu, nevis uzvaru sacīkstēs. Rezultāts ir tāds, ka aģents atklāja cilpu, kurā tas varēja iegūt augstāko punktu skaitu, iedarbinot turbo, nekad nepabeidzot sacīkstes.

Tā kā parafrāžu kvalitātes novērtēšana pati par sevi ir neatrisināta problēma, ir vēl grūtāk izveidot atlīdzības funkciju, kas automātiski uztver šo mērķi. Lielākā daļa valodas aspektu nesadalās lineārā metrikā un ir atkarīgi no uzdevuma (Novikova et al., 2017).

RL aģents bieži atklāj interesantu stratēģiju, lai palielinātu atlīdzību, kas izmanto novērtēšanas metrikas trūkumus, nevis ģenerē augstas kvalitātes tekstu. Tas parasti izraisa sliktu veiktspēju attiecībā uz metriku, kuru aģents tieši neoptimizē.

Mēs apsveram trīs galvenās pieejas:

Vārdu pārklāšanās metrika

Parastie NLP novērtēšanas rādītāji ņem vērā vārdu pārklāšanās proporciju starp ģenerēto parafrāzi un novērtējuma teikumu. Jo lielāka pārklāšanās, jo lielāka atlīdzība. Problēma ar vārdu līmeņa pieejām ir tāda, ka aģents ietver pārāk daudz savienojošu vārdu, piemēram, “a ir ieslēgts”, un nav plūstamības mēraukla. Tā rezultātā rodas ļoti zemas kvalitātes pārfrāzes.

Teikuma līmeņa līdzības un plūstamības metrika

Galvenās ģenerētās parafrāzes īpašības ir tādas, ka tai jābūt plūstošai un semantiski līdzīgai ievades teikumam. Tāpēc mēs cenšamies tos precīzi novērtēt atsevišķi un pēc tam apvienot metriku. Semantiskajai līdzībai mēs izmantojam kosinusa līdzību starp teikumu iegulumiem no iepriekš apmācītiem modeļiem, tostarp BERT. Lai nodrošinātu plūdumu, mēs izmantojam punktu skaitu, kas balstīts uz teikuma neskaidrību no GPT-2. Jo lielāka ir kosinusa līdzība un plūduma rādītāji, jo lielāka ir atlīdzība.

Mēs izmēģinājām daudzas dažādas teikumu iegulšanas modeļu un raituma modeļu kombinācijas, un, lai gan veiktspēja bija saprātīga, galvenā problēma, ar kuru aģents saskārās, nebija pietiekami līdzsvarota semantiskā līdzība ar raitumu. Lielākajai daļai konfigurāciju aģents par prioritāti noteica plūstamību, kā rezultātā tika noņemtas detaļas un lielākā daļa entītiju tika novietotas kaut kā “vidū” vai pārvietotas “uz galda” vai “ceļa malā”.

Vairāku mērķu pastiprināšanas mācīšanās ir atklāts pētniecības jautājums, un šajā gadījumā tas ir ļoti izaicinošs.

Konkurences modeļa izmantošana kā atlīdzības funkcija

Tā kā cilvēki vērtēšanā tiek uzskatīti par zelta standartu, mēs apmācām atsevišķu modeli, ko sauc par diskriminatoru, lai prognozētu, vai divi teikumi ir viens otra pārfrāze (līdzīgi tam, kā cilvēks vērtētu). Pēc tam RL modeļa mērķis ir pārliecināt šo modeli, ka ģenerētais teikums ir ievades pārfrāze. Diskriminētājs ģenerē punktu skaitu par to, cik iespējams, ka šie divi teikumi ir viens otra pārfrāzes, ko izmanto kā atlīdzību, lai apmācītu aģentu.

Ik pēc 5,000 minējumiem diskriminatoram tiek paziņots, kura parafrāze nāk no datu kopas un kura tika ģenerēta, lai tas varētu uzlabot savus turpmākos minējumus. Process turpinās vairākas kārtas, aģentam cenšoties apmānīt diskriminētāju, un diskriminētājam mēģina atšķirt ģenerētās parafrāzes no datu kopas novērtējuma parafrāzēm.

Pēc vairākām apmācības kārtām aģents ģenerē parafrāzes, kas pārspēj uzraudzīto modeļu un citu atlīdzības funkciju veiktspēju.

Secinājums un ierobežojumi

Pretendējošas pieejas (tostarp spēļu pašspēle) nodrošina ļoti daudzsološu pieeju RL algoritmu apmācībai, lai noteiktu uzdevumu veikšanā pārsniegtu cilvēka līmeņa veiktspēju, nedefinējot skaidru atlīdzības funkciju.

Lai gan šajā gadījumā RL spēja pārspēt uzraudzīto mācīšanos, lielākajai daļai lietojumprogrammu papildu pieskaitāmās izmaksas koda, skaitļošanas un sarežģītības ziņā nav tā vērtas, kā veiktspējas pieaugumu. RL vislabāk ir atstāt situācijās, kad uzraudzītu mācīšanos nevar viegli piemērot un ir viegli definēt atlīdzības funkciju (piemēram, Atari spēles). Uzraudzītās mācīšanās pieejas un algoritmi ir daudz nobriedušāki, un kļūdas signāls ir daudz spēcīgāks, kas nodrošina daudz ātrāku un stabilāku apmācību.

Vēl viens apsvērums, tāpat kā ar citām neironu pieejām, ir tāds, ka aģents var ļoti dramatiski neizdoties gadījumos, kad ievade atšķiras no iepriekš redzētajām ievadēm, tādēļ ražošanas lietojumprogrammām ir nepieciešams papildu saprāta pārbaužu slānis.

Intereses pieaugums par RL pieejām un progresu skaitļošanas infrastruktūrā pēdējos gados pavērs milzīgas iespējas RL pielietošanai rūpniecībā, īpaši NLP.

Nākošais

Pašbraucošu automašīnu drošība ir uzlabota ar jaunu apmācības metodi

Nepalaidiet garām

Pētnieki uzskata, ka AI var izmantot, lai palīdzētu aizsargāt cilvēku privātumu

Endrjū Gibss-Bravo

Endrjū Gibs-Bravo ir datu zinātnieks vietnē Frāze koncentrējās uz Phrasee pasaulē vadošās AI-Powered Copywriting tehnoloģijas uzlabošanu. Viņš ir arī Londonas pastiprināšanas mācību kopienas tikšanās līdzorganizators, un viņu interesē viss RL, NLP un mašīnmācīšanās.