stubbur Umorða kynslóð með djúpum styrkingarnámi - Hugsunarleiðtogar - Unite.AI
Tengja við okkur

Artificial Intelligence

Umorða kynslóð með því að nota djúpt styrkingarnám – hugsunarleiðtogar

mm
Uppfært on

Þegar við erum að skrifa eða tala höfum við öll velt því fyrir okkur hvort það sé betri leið til að koma hugmynd á framfæri við aðra. Hvaða orð ætti ég að nota? Hvernig ætti ég að skipuleggja hugsunina? Hvernig er líklegt að þeir bregðist við? Kl Frasa, við eyðum miklum tíma í að hugsa um tungumálið – hvað virkar og hvað ekki.

Ímyndaðu þér að þú sért að skrifa efnislínuna fyrir tölvupóstsherferð sem mun fara til 10 milljóna manna á listanum þínum og kynna 20% afslátt af flottri nýrri fartölvu.

Hvaða línu myndir þú velja:

  • Þú getur nú tekið 20% auka afslátt af næstu pöntun
  • Vertu tilbúinn - 20% auka afsláttur

Þó að þeir gefi sömu upplýsingar, náði annar næstum 15% hærra opnunarhlutfalli en hitt (og ég veðja á að þú getur ekki unnið líkanið okkar við að spá fyrir um hvaða?). Þó að oft sé hægt að prófa tungumálið í gegn A / B próf or fjölvopnaðir ræningjar, að búa til orðasambönd sjálfkrafa er enn mjög krefjandi rannsóknarvandamál.

Tvær setningar eru taldar umsagnir hver á annarri ef þær deila sömu merkingu og hægt er að nota þær til skiptis. Annað mikilvægt atriði sem oft er tekið sem sjálfsögðum hlut er hvort vélræn setning sé reiprennandi.

Ólíkt námi undir eftirliti, læra styrktarnám (RL) umboðsmenn í gegnum samskipti við umhverfi sitt og fylgjast með verðlaununum sem þeir fá í kjölfarið. Þessi dálítið blæbrigðamunur hefur gríðarleg áhrif á hvernig reikniritin virka og hvernig líkanin eru þjálfuð. Djúp styrkingarnám notar tauganet sem virkninálmun til að leyfa umboðsmanni að læra hvernig á að standa sig betur en menn í flóknu umhverfi eins og Go, Atari og StarCraft II.

Þrátt fyrir þennan árangur hefur styrkingarnámi ekki verið beitt almennt á raunveruleg vandamál, þar á meðal náttúruleg málvinnsla (NLP).

Sem hluti af mínum MSc ritgerð í gagnafræði, sýnum við hvernig hægt er að nota Deep RL til að standa sig betur en námsaðferðir undir eftirliti við að búa til umsagnir á innsláttartexta sjálfkrafa. Vandamálið við að búa til bestu orðasetninguna má líta á sem að finna röð orða sem hámarkar merkingarlega líkt milli setninga en viðhalda flæði í úttakinu. RL umboðsmenn eru vel til þess fallnir að finna bestu aðgerðirnar til að ná hámarks umbun sem búist er við í stjórnumhverfi.

Öfugt við flest vandamál í vélanámi, liggur stærsta vandamálið í flestum Natural Language Generation (NLG) forritum ekki í líkanagerðinni heldur frekar í matinu. Þó að mat á mönnum sé nú álitið gulls ígildi í NLG mati, þjáist það af verulegum ókostum, þar á meðal að vera dýrt, tímafrekt, krefjandi að stilla og skortir endurgerðanleika í tilraunum og gagnasöfnum (Han, 2016). Þess vegna hafa vísindamenn lengi verið að leita að sjálfvirkum mælingum sem eru einfaldar, alhæfanlegar og endurspegla mannlegt mat. (Papineni o.fl., 2002).

Algengustu sjálfvirku matsaðferðirnar við að meta myndatexta í vél eru teknar saman hér að neðan með kostum og göllum:

Umorðaðu kynslóð með því að nota Reinforcement Learning Pipeline

Við þróuðum kerfi sem heitir ParaPhrasee sem býr til hágæða orðasetningar. Kerfið samanstendur af mörgum skrefum til að beita styrkingarnámi á skilvirkan hátt. Stutt samantekt á leiðslunni á háu stigi er sýnd hér að neðan með nánari upplýsingum í ritgerð.

Gagnasett

Það eru til nokkur orðasamsetningargagnasöfn sem eru notuð í rannsóknum, þar á meðal: Microsoft Paraphrase corpus, ACL's Merkingartækni Texti Similarity keppni, Quora tvíteknar spurningarog Samnýttir tenglar á Twitter. Við höfum valið MS-COCO miðað við stærð þess, hreinleika og notkun sem viðmið fyrir tvö athyglisverð blöð um orðasamsetningu. MS-COCO inniheldur 120 myndir af algengum senum með 5 myndatextum á hverja mynd sem 5 mismunandi mannlegir rithöfundar gefa.

Þó að það sé fyrst og fremst hannað fyrir rannsóknir á tölvusjón, hafa myndatextarnir tilhneigingu til að hafa mikla merkingarlega líkingu og eru áhugaverðar orðasetningar. Í ljósi þess að myndatextarnir eru veittir af mismunandi fólki, þá hafa þeir tilhneigingu til að hafa smá afbrigði í smáatriðum í atriðinu og því hafa setningarnar tilhneigingu til að ofskynja smáatriði.

Eftirlitslíkan

Þó að styrkingarnám hafi batnað umtalsvert hvað varðar skilvirkni úrtaks, þjálfunartíma og almenna bestu starfsvenjur, er þjálfun RL módel frá grunni enn tiltölulega hæg og óstöðug (Arulkumaran o.fl., 2017). Þess vegna, frekar en að þjálfa frá grunni, þjálfum við fyrst líkan undir eftirliti og fínstillum það síðan með RL.

Við notum an Encoder-Decoder líkanaramma og meta árangur nokkurra grunnlínu undir eftirlitslíkönum. Þegar við fínstillum líkanið með því að nota RL, fínstillum við aðeins afkóðaranetið og förum með umritaranetið sem kyrrstætt. Sem slík lítum við á tvo meginramma:

  • Þjálfa líkanið sem er undir eftirliti frá grunni með því að nota staðlaðan/vanillu kóðara afkóðara með GRU
  • Notkun forþjálfaðra setningainnfellingalíköna fyrir kóðara, þar á meðal: sameinuð orðainnfelling (GloVe), InferSent og BERT

Módelin sem eru undir eftirliti hafa tilhneigingu til að skila nokkuð svipuðum árangri í öllum gerðum þar sem BERT og vanillukóðara-afkóðarinn ná bestum árangri.

Þó frammistaðan hafi tilhneigingu til að vera sanngjörn eru þrjár algengar villuvaldar: stam, mynda setningabrot og ofskynjanir. Þetta eru helstu vandamálin sem notkun RL miðar að því að leysa.

Styrkingarnámslíkan

Það er mjög krefjandi að innleiða RL reiknirit, sérstaklega þegar þú veist ekki hvort hægt er að leysa vandamálið. Það geta verið vandamál í útfærslu umhverfisins þíns, umboðsmanna þinna, ofurbreytu þinna, verðlaunavirkni þinnar eða sambland af öllu ofantöldu! Þessi vandamál versna þegar þú gerir djúpa RL þar sem þú færð gaman af auknu flóknu villuleit taugakerfi.

Eins og með alla villuleit er mikilvægt að byrja einfalt. Við innleiddum afbrigði af tveimur vel skilnum leikfanga RL umhverfi (CartPole og FrozenLake) til að prófa RL reiknirit og finna endurtekna stefnu til að flytja þekkingu frá líkaninu undir eftirliti.

Við komumst að því að nota an Actor-Critic reiknirit stóð sig betur REINFORCE í þessu umhverfi. Hvað varðar yfirfærslu þekkingar yfir á leikara-gagnrýnandi líkanið, komumst við að því að frumstilla lóð leikarans með þjálfaða líkaninu undir eftirliti og forþjálfun gagnrýnandans náði bestum árangri. Okkur fannst erfitt að alhæfa háþróaðar stefnueimingaraðferðir yfir í nýtt umhverfi þar sem þær kynna margar nýjar ofurfæribreytur sem krefjast stillingar til að virka.

Stuðningur af þessari innsýn, snúum við okkur síðan að því að þróa nálgun fyrir umorðunar kynslóðarverkefnið. Við þurfum fyrst að skapa umhverfi.

Umhverfið gerir okkur kleift að prófa auðveldlega áhrif þess að nota mismunandi matsmælikvarða sem verðlaunaaðgerðir.

Við skilgreinum síðan umboðsmanninn, miðað við marga kosti hans notum við leikara-gagnrýnandi arkitektúr. Leikarinn er notaður til að velja næsta orð í röðinni og hefur þyngd þess frumstillt með því að nota eftirlitslíkanið. Gagnrýnandinn gefur upp mat á væntanlegum verðlaunum sem ríki er líklegt til að fá til að hjálpa leikaranum að læra.

Að hanna rétta verðlaunaaðgerðina

Mikilvægasti þátturinn í að hanna RL kerfi er verðlaunaaðgerðin þar sem þetta er það sem RL umboðsmaðurinn er að reyna að hagræða. Ef verðlaunaaðgerðin er röng, þá munu niðurstöðurnar verða fyrir skaða jafnvel þótt annar hver hluti kerfisins virki!

Klassískt dæmi um þetta er CoastRunners þar sem OpenAI vísindamenn settu verðlaunaaðgerðina sem hámarka heildarstig frekar en að vinna keppnina. Niðurstaðan af þessu er að umboðsmaðurinn uppgötvaði lykkju þar sem hann gæti fengið hæstu einkunn með því að slá á túrbó án þess að klára keppnina.

Í ljósi þess að meta gæði orðasetninga er í sjálfu sér óleyst vandamál, það er enn erfiðara að hanna verðlaunaaðgerð sem fangar þetta markmið sjálfkrafa. Flestir þættir tungumálsins brotna ekki fallega niður í línulega mælikvarða og eru verkefni háð (Novikova o.fl., 2017).

RL umboðsmaðurinn uppgötvar oft áhugaverða stefnu til að hámarka umbun sem nýtir veikleikana í matsmælingunni frekar en að búa til hágæða texta. Þetta hefur tilhneigingu til að leiða til lélegrar frammistöðu á mælingum sem umboðsmaðurinn er ekki beint að hagræða.

Við skoðum þrjár meginaðferðir:

  1. Orðaskörunarmælingar

Algengar NLP matsmælikvarðar taka mið af hlutfalli orðaskörunar á milli myndaðrar orðasetningar og matssetningar. Því meiri skörun því meiri verðlaun. Áskorunin við orðastigsaðferðir er að umboðsmaðurinn inniheldur of mörg tengiorð eins og „a er á af“ og það er enginn mælikvarði á mælsku. Þetta leiðir af sér mjög lággæða orðasambönd.

  1. Líkindi og reiprennsli á setningastigi

Helstu eiginleikar myndaðrar orðsetningar eru að hún verður að vera reiprennandi og merkingarlega svipuð inntakssetningunni. Þess vegna reynum við að skora þetta sérstaklega fyrir sig og sameina síðan mælikvarðana. Fyrir merkingarlega líkt notum við kósínuslíkinguna á milli innfellinga setninga frá forþjálfuðum gerðum þar á meðal BERT. Til að vera orðalaus notum við stig sem byggir á ráðvillu setningar úr GPT-2. Því meira sem kósínuslíkindin og reiprennandi skorin eru því meiri verðlaunin.

Við reyndum margar mismunandi samsetningar af setningarlíkönum og flæðilíkönum og þótt frammistaðan væri sanngjörn var aðalvandamálið sem umboðsmaðurinn stóð frammi fyrir ekki nægilega jafnvægi á merkingarfræðilegum líkindum og reiprennandi. Fyrir flestar stillingar setti umboðsmaðurinn reiprennandi í forgang sem leiddi til þess að smáatriði voru fjarlægð og flestar einingar voru settar „í miðju“ á einhverju eða færðar „á borð“ eða „hlið vegar“.

Fjölmarkmið styrkingarnám er opin rannsóknarspurning og er mjög krefjandi í þessu tilfelli.

  1. Að nota andstæðingslíkan sem verðlaunaaðgerð

Í ljósi þess að menn eru álitnir gulls ígildi í mati, þjálfum við sérstakt líkan sem kallast aðgreiningarmaðurinn til að spá fyrir um hvort tvær setningar séu umorðanir á hvorri annarri eða ekki (svipað og manneskjan myndi meta). Markmið RL líkansins er síðan að sannfæra þetta líkan um að setningin sem myndast sé umorðasetning á inntakinu. Mismununaraðilinn býr til stig um hversu líklegt er að setningarnar tvær séu umorðanir á hvorri annarri sem er notað sem verðlaun til að þjálfa umboðsmanninn.

Á 5,000 giska fresti er mismununaraðilanum sagt hvaða orðatiltæki kom úr gagnasafninu og hver var búin til svo það geti bætt framtíðargetur sínar. Ferlið heldur áfram í nokkrar lotur þar sem umboðsmaðurinn reynir að blekkja mismununaraðilann og mismunarandinn reynir að greina á milli myndaðra umsagna og matsbreytinga úr gagnasafninu.

Eftir nokkrar lotur af þjálfun býr umboðsmaðurinn til orðasambönd sem standa sig betur en eftirlitsgerðir og aðrar umbunaraðgerðir.

Niðurstaða og takmarkanir

Andstæð nálgun (þar á meðal sjálfspilun fyrir leiki) veita afar efnilega nálgun til að þjálfa RL reiknirit til að fara yfir frammistöðu manna á tilteknum verkefnum án þess að skilgreina skýra verðlaunaaðgerð.

Þó að RL hafi getað staðið sig betur en undir eftirliti í þessu tilviki, er magn aukakostnaðar hvað varðar kóða, útreikninga og flækjustig ekki þess virði að afkasta fyrir flest forrit. Best er að láta RL eftir aðstæðum þar sem ekki er auðvelt að beita námi undir eftirliti og auðvelt er að skilgreina verðlaunaaðgerð (eins og Atari leiki). Aðferðirnar og reikniritin eru mun þroskaðri í námi undir eftirliti og villumerkið er mun sterkara sem skilar sér í mun hraðari og stöðugri þjálfun.

Önnur íhugun er, eins og með aðrar taugaaðferðir, að lyfið getur mistekist mjög verulega í þeim tilvikum þar sem inntakið er frábrugðið inntakinu sem það hefur áður séð, sem krefst viðbótarlags af geðheilsueftirliti fyrir framleiðsluforrit.

Aukinn áhugi á RL nálgun og framfarir í tölvuinnviðum á síðustu árum mun opna gríðarleg tækifæri til að beita RL í iðnaði, sérstaklega innan NLP.

Andrew Gibbs-Bravo er gagnafræðingur hjá Frasa einbeitt sér að því að bæta tæknina á bak við heimsleiðandi AI-powered auglýsingatextahöfundur Phrasee. Hann er einnig meðskipuleggjandi London Reinforcement Learning Community Meetup og hefur áhuga á öllu sem viðkemur RL, NLP og vélanámi.