Umělá inteligence

Generování parafrází pomocí hlubokého posilovacího učení – myšlenkové vůdce

aktualizováno on 9. prosince 2022

Když píšeme nebo mluvíme, všichni jsme přemýšleli, zda existuje lepší způsob, jak sdělit myšlenku ostatním. Jaká slova bych měl použít? Jak mám strukturovat myšlenku? Jak pravděpodobně zareagují? Na Phrasee, trávíme spoustu času přemýšlením o jazyce – co funguje a co ne.

Představte si, že píšete předmět e-mailové kampaně, která se dostane k 10 milionům lidí ve vašem seznamu a propaguje 20% slevu na luxusní nový notebook.

Který řádek byste si vybrali:

Nyní můžete získat extra 20% slevu na další objednávku
Připravte se – extra 20% sleva

I když předávají stejné informace, jeden dosáhl téměř o 15 % vyšší open rate než druhý (a vsadím se, že náš model nemůžete porazit v předpovídání kterého?). Zatímco jazyk lze často testovat skrz A / B testování or mnohorukých banditů, automatické generování parafráze zůstává skutečně náročným výzkumným problémem.

Dvě věty jsou považovány za vzájemné parafráze, pokud mají stejný význam a lze je používat zaměnitelně. Další důležitou věcí, která je často považována za samozřejmost, je, zda je strojově generovaná věta plynulá.

Na rozdíl od řízeného učení se agenti Reinforcement Learning (RL) učí prostřednictvím interakce se svým prostředím a pozorováním odměn, které jako výsledek dostávají. Tento poněkud jemný rozdíl má obrovské důsledky pro to, jak fungují algoritmy a jak jsou modely trénovány. Hluboké posílení učení používá neuronové sítě jako aproximátor funkcí, aby se agent naučil, jak překonat lidi ve složitých prostředích, jako je např. Go, Atari a StarCraft II.

Navzdory tomuto úspěchu nebylo posilovací učení široce aplikováno na problémy reálného světa, včetně zpracování přirozeného jazyka (NLP).

Jako součást mého Diplomová práce v oboru Data Science, demonstrujeme, jak lze Deep RL použít k překonání metod učení pod dohledem v automatickém generování parafráze vstupního textu. Problém generování nejlepší parafráze lze chápat jako nalezení takové řady slov, která maximalizuje sémantickou podobnost mezi větami při zachování plynulosti ve výstupu. Agenti RL se dobře hodí pro nalezení nejlepší sady akcí k dosažení maximální očekávané odměny v kontrolních prostředích.

Na rozdíl od většiny problémů ve strojovém učení největší problém většiny aplikací generování přirozeného jazyka (NLG) nespočívá v modelování, ale spíše ve vyhodnocování. Zatímco lidské hodnocení je v současné době považováno za zlatý standard v hodnocení NLG, trpí významnými nevýhodami, včetně toho, že je drahé, časově náročné, náročné na vyladění a chybějící reprodukovatelnost napříč experimenty a soubory dat. (Han, 2016). Výsledkem je, že výzkumníci již dlouho hledají automatické metriky, které jsou jednoduché, zobecnitelné a které odrážejí lidský úsudek (Papineni a kol., 2002).

Nejběžnější metody automatického vyhodnocování při vyhodnocování strojově generovaných popisků obrázků jsou shrnuty níže s jejich klady a zápory:

Generování parafrází pomocí výukového kanálu posílení

Vyvinuli jsme systém s názvem ParaPhrasee, který generuje vysoce kvalitní parafráze. Systém se skládá z několika kroků, aby bylo možné použít učení výztuže výpočetně efektivním způsobem. Stručné shrnutí vysokoúrovňového potrubí je uvedeno níže s podrobnostmi obsaženými v teze.

Dataset

Existuje několik souborů parafrázových dat, které se používají ve výzkumu, včetně: Korpus Microsoft Paraphrase, Soutěž sémantické textové podobnosti ACL, Quora duplicitní otázky, a Sdílené odkazy na Twitteru. Máme vybráno MS-COCO vzhledem k jeho velikosti, čistotě a použití jako měřítko pro dva pozoruhodné papíry generace parafrází. MS-COCO obsahuje 120 5 obrázků běžných scén s 5 popisky na obrázek, které poskytuje XNUMX různých lidských anotátorů.

I když je primárně určen pro výzkum počítačového vidění, titulky mívají vysokou sémantickou podobnost a jsou zajímavými parafrázemi. Vzhledem k tomu, že popisky obrázků poskytují různí lidé, mají tendenci mít ve scéně drobné odchylky v detailech, takže generované věty mají tendenci halucinovat detaily.

Model pod dohledem

Zatímco učení s posilováním se značně zlepšilo, pokud jde o efektivitu vzorku, dobu tréninku a celkové osvědčené postupy, trénink RL modelů od nuly je stále poměrně velmi pomalý a nestabilní. (Arulkumaran et al., 2017). Proto raději než trénovat od nuly, nejprve trénujeme model pod dohledem a poté jej dolaďujeme pomocí RL.

Používáme an Kodér-dekodér modelový rámec a vyhodnotit výkon několika základních dohlížených modelů. Při dolaďování modelu pomocí RL dolaďujeme pouze síť dekodéru a síť kodéru považujeme za statickou. Jako takové uvažujeme o dvou hlavních rámcích:

Školení kontrolovaného modelu od nuly pomocí standardního/vanilkového dekodéru s GRU
Použití předem připravených modelů vkládání vět pro kodér včetně: vkládání sdružených slov (GloVe), InferSent a BERT

Kontrolované modely mají tendenci fungovat docela podobně napříč modely, přičemž BERT a vanilla kodér-dekodér dosahují nejlepšího výkonu.

Zatímco výkon bývá přiměřený, existují tři běžné zdroje chyb: koktání, generování fragmentů vět a halucinace. Toto jsou hlavní problémy, které se pomocí RL snaží vyřešit.

Výukový model posilování

Implementace RL algoritmů je velmi náročná, zvláště když nevíte, zda lze problém vyřešit. Mohou nastat problémy s implementací vašeho prostředí, vašich agentů, vašich hyperparametrů, vaší funkce odměňování nebo kombinace všech výše uvedených! Tyto problémy se zhoršují při provádění hlubokého RL, když si užijete legraci z přidané složitosti ladění neuronových sítí.

Stejně jako u každého ladění je důležité začít jednoduše. Implementovali jsme varianty dvou dobře srozumitelných prostředí RL pro hračky (CartPole a FrozenLake), abychom otestovali algoritmy RL a našli opakovatelnou strategii pro přenos znalostí z modelu pod dohledem.

Zjistili jsme, že pomocí an Algoritmus herec-kritický překonalo REINFORCE v těchto prostředích. Pokud jde o přenos znalostí do modelu herec-kritický, zjistili jsme, že nejlepšího výkonu dosáhlo inicializace vah herce pomocí trénovaného modelu pod dohledem a předtrénování kritika. Zjistili jsme, že je náročné zobecnit sofistikované přístupy destilace politik do nových prostředí, protože zavádějí mnoho nových hyperparametrů, které vyžadují vyladění, aby fungovaly.

S podporou těchto poznatků se pak obracíme k vývoji přístupu k úkolu generování parafrází. Nejprve musíme vytvořit prostředí.

Prostředí nám umožňuje snadno testovat dopad používání různých hodnotících metrik jako funkcí odměn.

Poté definujeme agenta, vzhledem k jeho mnoha výhodám používáme architekturu aktéra. Aktér se používá k výběru dalšího slova v sekvenci a jeho váhy jsou inicializovány pomocí supervidovaného modelu. Kritik poskytuje odhad očekávané odměny, kterou stát pravděpodobně obdrží, aby pomohl herci učit se.

Navrhování správné funkce odměňování

Nejdůležitější složkou návrhu systému RL je funkce odměny, protože to je to, co se agent RL snaží optimalizovat. Pokud je funkce odměn nesprávná, výsledky utrpí, i když budou fungovat všechny ostatní části systému!

Klasickým příkladem toho je CoastRunners kde výzkumníci OpenAI stanovili funkci odměny jako maximalizaci celkového skóre spíše než vítězství v závodě. Výsledkem toho je, že agent objevil smyčku, kde mohl získat nejvyšší skóre zásahem do turbodmychadla, aniž by kdy dokončil závod.

Vzhledem k tomu, že hodnocení kvality parafrází je samo o sobě nevyřešeným problémem, navrhnout funkci odměn, která tento cíl automaticky zachytí, je ještě těžší. Většina aspektů jazyka se nerozkládá pěkně do lineárních metrik a je závislá na úkolu (Noviková et al., 2017).

Agent RL často objeví zajímavou strategii k maximalizaci odměn, která využívá slabiny v metrice hodnocení spíše než generování vysoce kvalitního textu. To má tendenci vést ke špatnému výkonu u metrik, které agent přímo neoptimalizuje.

Zvažujeme tři hlavní přístupy:

Metriky překrývání slov

Běžné metriky hodnocení NLP berou v úvahu podíl překrývání slov mezi vygenerovanou parafrází a hodnotící větou. Čím větší přesah, tím větší odměna. Problém s přístupy na úrovni slov spočívá v tom, že agent obsahuje příliš mnoho spojovacích slov, jako je „a je na“ a neexistuje žádná míra plynulosti. To má za následek velmi nekvalitní parafráze.

Metriky podobnosti a plynulosti na úrovni vět

Hlavní vlastnosti vygenerované parafráze jsou, že musí být plynulá a sémanticky podobná vstupní větě. Snažíme se je proto explicitně hodnotit jednotlivě a poté metriky kombinovat. Pro sémantickou podobnost používáme kosinusovou podobnost mezi vkládáním vět z předem připravených modelů včetně BERT. Pro plynulost používáme skóre založené na zmatenosti věty z GPT-2. Čím větší je skóre kosinusové podobnosti a plynulosti, tím větší je odměna.

Vyzkoušeli jsme mnoho různých kombinací modelů vkládání vět a modelů plynulosti, a přestože výkon byl přiměřený, hlavním problémem, kterému agent čelil, bylo nedostatečné vyvážení sémantické podobnosti s plynulostí. U většiny konfigurací agent upřednostnil plynulost, což mělo za následek odstranění detailů a většinu entit umístěných „uprostřed“ něčeho nebo přesunout „na stůl“ nebo „na stranu silnice“.

Vícecílové posilování učení je otevřená výzkumná otázka a je v tomto případě velmi náročná.

Použití modelu protivníka jako funkce odměny

Vzhledem k tomu, že lidé jsou považováni za zlatý standard při hodnocení, trénujeme samostatný model nazývaný diskriminátor, abychom předpověděli, zda jsou dvě věty parafrází jedné druhé (podobně jako by hodnotili lidé). Cílem RL modelu je pak tento model přesvědčit, že vygenerovaná věta je parafrází vstupu. Diskriminátor generuje skóre toho, s jakou pravděpodobností jsou obě věty parafrází jedna na druhou, což se používá jako odměna k výcviku agenta.

Každých 5,000 XNUMX tipů je diskriminátoru sděleno, která parafráze pochází z datové sady a která byla vygenerována, aby mohl zlepšit své budoucí odhady. Proces pokračuje několik kol, kdy se agent snaží oklamat diskriminátor a diskriminátor se snaží rozlišit mezi generovanými parafrázemi a vyhodnocovacími parafrázemi z datové sady.

Po několika kolech školení agent generuje parafráze, které překonávají modely pod dohledem a další funkce odměn.

Závěr a omezení

Protichůdné přístupy (včetně vlastního hraní her) poskytují extrémně slibný přístup k trénování RL algoritmů, aby překonaly lidský výkon na určitých úkolech bez definování explicitní funkce odměny.

Zatímco RL dokázalo v tomto případě překonat učení pod dohledem, množství dodatečné režie, pokud jde o kód, výpočty a složitost, u většiny aplikací nestojí za zvýšení výkonu. RL je nejlepší ponechat v situacích, kdy učení pod dohledem nelze snadno použít a funkce odměny lze snadno definovat (jako jsou hry Atari). Přístupy a algoritmy jsou mnohem vyspělejší v učení pod dohledem a chybový signál je mnohem silnější, což má za následek mnohem rychlejší a stabilnější trénink.

Další úvahou je, stejně jako u jiných neuronových přístupů, že agent může velmi dramaticky selhat v případech, kdy se vstup liší od vstupů, které dříve viděl, což vyžaduje další vrstvu kontrol zdravého rozumu pro produkční aplikace.

Exploze zájmu o přístupy RL a pokroky ve výpočetní infrastruktuře v posledních několika letech otevře obrovské příležitosti pro uplatnění RL v průmyslu, zejména v rámci NLP.

Nahoru Další

Bezpečnost samořiditelných aut se zlepšila díky nové metodě školení

Nenechte si ujít

Výzkumníci věří, že AI může být použita k ochraně soukromí lidí

Andrew Gibbs-Bravo

Andrew Gibbs-Bravo je datový vědec ve společnosti Phrasee se zaměřil na vylepšení technologie, která stojí za předním světovým kopírováním s umělou inteligencí Phrasee. Je také spoluorganizátorem London Reinforcement Learning Community Meetup a zajímá se o všechny věci RL, NLP a strojové učení.