Artificiell intelligens

Omskrivningsgenerering med hjälp av djup förstärkningsinlärning – tankeledare

Uppdaterad on December 9, 2022

När vi skriver eller pratar har vi alla undrat om det finns ett bättre sätt att kommunicera en idé till andra. Vilka ord ska jag använda? Hur ska jag strukturera tanken? Hur kommer de sannolikt att svara? På Phrasee, vi ägnar mycket tid åt att tänka på språket – vad som fungerar och vad som inte fungerar.

Föreställ dig att du skriver ämnesraden för en e-postkampanj som kommer att gå till 10 miljoner människor på din lista och främja 20 % rabatt på en snygg ny bärbar dator.

Vilken linje skulle du välja:

Du kan nu ta 20% extra rabatt på din nästa beställning
Gör dig redo – 20 % extra rabatt

Medan de förmedlar samma information, uppnådde den ena en nästan 15 % högre öppningshastighet än den andra (och jag slår vad om att du inte kan slå vår modell när det gäller att förutsäga vilken?). Medan språket ofta kan testas igenom A / B-testning or flerarmade banditer, förblir automatisk generering av parafraser ett riktigt utmanande forskningsproblem.

Två meningar betraktas som parafraser av varandra om de delar samma betydelse och kan användas omväxlande. En annan viktig sak som ofta tas för given är om en maskingenererad mening är flytande.

Till skillnad från övervakat lärande, lär agenter för Reinforcement Learning (RL) genom att interagera med sin omgivning och observera belöningarna de får som ett resultat. Denna något nyanserade skillnad har massiva konsekvenser för hur algoritmerna fungerar och hur modellerna tränas. Deep Armering Learning använder neurala nätverk som en funktionsapproximator för att låta agenten lära sig hur man presterar bättre än människor i komplexa miljöer som t.ex. Go, Atari och StarCraft II.

Trots denna framgång har förstärkningsinlärning inte använts i stor utsträckning på verkliga problem, inklusive Natural Language Processing (NLP).

Som en del av mina Civilingenjörsuppsats i datavetenskap, visar vi hur Deep RL kan användas för att överträffa övervakade inlärningsmetoder genom att automatiskt generera parafraser av inmatad text. Problemet med att generera den bästa omskrivningen kan ses som att hitta den serie av ord som maximerar den semantiska likheten mellan meningar samtidigt som det behåller flytet i utmatningen. RL-agenter är väl lämpade för att hitta den bästa uppsättningen åtgärder för att uppnå maximal förväntad belöning i kontrollmiljöer.

Till skillnad från de flesta problem inom maskininlärning, ligger det största problemet i de flesta Natural Language Generation (NLG)-applikationer inte i modelleringen utan snarare i utvärderingen. Även om mänsklig utvärdering för närvarande anses vara guldstandarden i NLG-utvärdering, lider den av betydande nackdelar, inklusive att den är dyr, tidskrävande, utmanande att ställa in och saknar reproducerbarhet över experiment och datauppsättningar (Han, 2016). Som ett resultat av detta har forskare länge sökt efter automatiska mått som är enkla, generaliserbara och som återspeglar mänskligt omdöme. (Papineni et al., 2002).

De vanligaste automatiska utvärderingsmetoderna för att utvärdera maskingenererade bildtexter sammanfattas nedan med deras för- och nackdelar:

Omskrivningsgenerering med hjälp av Reinforcement Learning Pipeline

Vi utvecklade ett system som heter ParaPhrasee som genererar högkvalitativa omskrivningar. Systemet består av flera steg för att tillämpa förstärkningsinlärning på ett beräkningseffektivt sätt. En kort sammanfattning av pipeline på hög nivå visas nedan med mer information i avhandling.

dataset

Det finns flera parafrasuppsättningar tillgängliga som används i forskning, inklusive: Microsoft Paraphrase-korpus, ACL:s Semantic Text Similarity-tävling, Quora Duplicate Questionsoch Twitter delade länkar. Vi har valt MS-COCO med tanke på dess storlek, renhet och användning som riktmärke för två anmärkningsvärda papper för generering av parafraser. MS-COCO innehåller 120 5 bilder av vanliga scener med 5 bildtexter per bild tillhandahållna av XNUMX olika mänskliga kommentatorer.

Även om den främst är utformad för forskning om datorseende, tenderar bildtexterna att ha hög semantisk likhet och är intressanta omskrivningar. Med tanke på att bildtexterna tillhandahålls av olika personer tenderar de att ha små variationer i detaljer i scenen och därför tenderar de genererade meningarna att hallucinera detaljer.

Övervakad modell

Även om förstärkningsinlärning har förbättrats avsevärt när det gäller proveffektivitet, träningstider och övergripande bästa praxis, är träning av RL-modeller från grunden fortfarande relativt långsam och instabil (Arulkumaran et al., 2017). Därför, snarare än att träna från grunden, tränar vi först en övervakad modell och finjusterar den sedan med RL.

Vi använder en Encoder-Decoder modellramverket och utvärdera prestandan för flera övervakade grundmodeller. Vid finjustering av modellen med RL finjusterar vi endast avkodarnätverket och behandlar kodarnätverket som statiskt. Som sådan överväger vi två huvudramverk:

Träning av den övervakade modellen från grunden med hjälp av en standard/vaniljkodavkodare med GRU:er
Använda förtränade meningsinbäddningsmodeller för kodaren inklusive: poolade ordinbäddningar (GloVe), InferSent och BERT

De övervakade modellerna tenderar att prestera ganska lika mellan modellerna med BERT och vaniljkodar-dekodern som uppnår bästa prestanda.

Även om framförandet tenderar att vara rimligt, finns det tre vanliga felkällor: stamning, generering av meningsfragment och hallucinationer. Dessa är de huvudsakliga problemen som med RL syftar till att lösa.

Förstärkningsinlärningsmodell

Att implementera RL-algoritmer är mycket utmanande, särskilt när du inte vet om problemet kan lösas. Det kan vara problem i implementeringen av din miljö, dina agenter, dina hyperparametrar, din belöningsfunktion eller en kombination av allt ovan! Dessa problem förvärras när du gör djup RL eftersom du får det roliga med den extra komplexiteten i felsökning av neurala nätverk.

Som med all felsökning är det avgörande att börja enkelt. Vi implementerade varianter av två välförstådda leksaks-RL-miljöer (CartPole och FrozenLake) för att testa RL-algoritmer och hitta en repeterbar strategi för att överföra kunskap från den övervakade modellen.

Vi hittade att använda en Skådespelare-kritisk algoritm överträffade REINFORCE i dessa miljöer. När det gäller att överföra kunskap till skådespelare-kritiker-modellen fann vi att initialisering av skådespelarens vikter med den utbildade övervakade modellen och förträning av kritikern gav den bästa prestationen. Vi fann det utmanande att generalisera sofistikerade policydestillationsmetoder till nya miljöer eftersom de introducerar många nya hyperparametrar som kräver inställning för att fungera.

Med stöd av dessa insikter övergår vi sedan till att utveckla ett tillvägagångssätt för parafrasgenereringsuppgiften. Vi måste först skapa en miljö.

Miljön tillåter oss att enkelt testa effekten av att använda olika utvärderingsmått som belöningsfunktioner.

Vi definierar sedan agenten, med tanke på dess många fördelar använder vi en skådespelare-kritisk arkitektur. Skådespelaren används för att välja nästa ord i sekvensen och får dess vikter initialiserade med den övervakade modellen. Kritikern ger en uppskattning av den förväntade belöningen en stat sannolikt kommer att få för att hjälpa skådespelaren att lära sig.

Designa rätt belöningsfunktion

Den viktigaste komponenten i att designa ett RL-system är belöningsfunktionen eftersom detta är vad RL-agenten försöker optimera. Om belöningsfunktionen är felaktig kommer resultaten att bli lidande även om alla andra delar av systemet fungerar!

Ett klassiskt exempel på detta är CoastRunners där OpenAI-forskarna satte belöningsfunktionen som att maximera totalpoängen snarare än att vinna loppet. Resultatet av detta är att agenten upptäckte en slinga där den kunde få högsta poäng genom att slå turbo utan att någonsin fullfölja loppet.

Eftersom att utvärdera kvaliteten på omskrivningar i sig är ett olöst problem, är det ännu svårare att designa en belöningsfunktion som automatiskt fångar detta mål. De flesta aspekter av språket bryts inte ned i linjära mått och är uppgiftsberoende (Novikova et al., 2017).

RL-agenten upptäcker ofta en intressant strategi för att maximera belöningar som utnyttjar svagheterna i utvärderingsmåttet snarare än att generera högkvalitativ text. Detta tenderar att resultera i dålig prestanda på mätvärden som agenten inte direkt optimerar.

Vi överväger tre huvudsakliga tillvägagångssätt:

Ordöverlappningsmått

Vanliga NLP-utvärderingsmått tar hänsyn till andelen ordöverlappning mellan den genererade parafrasen och utvärderingssatsen. Ju större överlappning desto större belöning. Utmaningen med tillvägagångssätt på ordnivå är att agenten innehåller för många kopplingsord som "en är på" och det finns inget mått på flyt. Detta resulterar i omskrivningar av mycket låg kvalitet.

Mätvärden för likhet och flyt på meningsnivå

De huvudsakliga egenskaperna hos en genererad omskrivning är att den måste vara flytande och semantiskt lik den inmatade meningen. Därför försöker vi att uttryckligen poängsätta dessa individuellt och sedan kombinera måtten. För semantisk likhet använder vi cosinuslikheten mellan meningsinbäddningar från förtränade modeller inklusive BERT. För flytande använder vi en poäng baserad på förvirringen i en mening från GPT-2. Ju större cosinuslikhet och flytpoäng desto större belöning.

Vi provade många olika kombinationer av meningsinbäddningsmodeller och flytande modeller och även om prestandan var rimlig, var huvudproblemet som agenten ställdes inför inte tillräckligt med att balansera semantisk likhet med flyt. För de flesta konfigurationer prioriterade agenten flyt, vilket resulterade i att detaljer togs bort och att de flesta enheter placerades "i mitten" av något eller flyttades "på ett bord" eller "vid sidan av vägen".

Multi-objektiv förstärkningsinlärning är en öppen forskningsfråga och är mycket utmanande i det här fallet.

Att använda en motstridig modell som en belöningsfunktion

Med tanke på att människor anses vara guldstandarden vid utvärdering, tränar vi en separat modell som kallas diskriminatorn för att förutsäga om två meningar är omskrivningar av varandra eller inte (liknande hur en människa skulle utvärdera). Målet med RL-modellen är sedan att övertyga denna modell om att den genererade meningen är en omskrivning av inmatningen. Diskriminatorn genererar en poäng av hur sannolikt de två meningarna är omskrivningar av varandra som används som belöning för att träna agenten.

Varje 5,000:e gissning får diskriminatorn veta vilken omskrivning som kom från datamängden och vilken som genererades så att den kan förbättra sina framtida gissningar. Processen fortsätter i flera omgångar med agenten som försöker lura diskriminatorn och diskriminatorn försöker skilja mellan de genererade parafraserna och utvärderingsparafraserna från datasetet.

Efter flera träningsomgångar genererar agenten parafraser som överträffar de övervakade modellerna och andra belöningsfunktioner.

Slutsats och begränsningar

Motstridiga tillvägagångssätt (inklusive självspel för spel) ger ett extremt lovande tillvägagångssätt för att träna RL-algoritmer för att överträffa prestanda på mänsklig nivå på vissa uppgifter utan att definiera en explicit belöningsfunktion.

Även om RL kunde överträffa övervakad inlärning i det här fallet, är mängden extra overhead i termer av kod, beräkning och komplexitet inte värt prestandavinsten för de flesta applikationer. RL lämnas bäst till situationer där övervakad inlärning inte enkelt kan tillämpas, och en belöningsfunktion är lätt att definiera (som Atari-spel). Tillvägagångssätten och algoritmerna är mycket mer mogna i övervakad inlärning och felsignalen är mycket starkare vilket resulterar i mycket snabbare och mer stabil träning.

Ett annat övervägande är, som med andra neurala tillvägagångssätt, att medlet kan misslyckas mycket dramatiskt i fall där insatsen skiljer sig från de insatser den tidigare har sett, vilket kräver ytterligare ett lager av hälsokontroller för produktionsapplikationer.

Explosionen av intresse för RL-metoder och framsteg inom beräkningsinfrastruktur under de senaste åren kommer att låsa upp enorma möjligheter för att tillämpa RL i industrin, särskilt inom NLP.

Strax

Säkerheten för självkörande bilar förbättras med ny träningsmetod

Missa inte

Forskare tror att AI kan användas för att skydda människors integritet

Andrew Gibbs-Bravo

Andrew Gibbs-Bravo är en dataforskare vid Phrasee fokuserat på att förbättra tekniken bakom Phrasees världsledande AI-drivna copywriting. Han är också medarrangör av London Reinforcement Learning Community Meetup och är intresserad av allt som rör RL, NLP och maskininlärning.