csonk Parafrázisgenerálás a mélyreható tanulás segítségével – Gondolatvezetők – Unite.AI
Kapcsolatba velünk

Mesterséges Intelligencia

Parafrázisgenerálás a mélyreható tanulás segítségével – Gondolatvezetők

mm
korszerűsített on

Írás vagy beszéd közben mindannyian elgondolkodtunk azon, hogy van-e jobb módja annak, hogy egy ötletet másoknak közvetítsünk. Milyen szavakat használjak? Hogyan strukturáljam a gondolatot? Valószínűleg hogyan reagálnak? Nál nél Kifejezés, sok időt töltünk a nyelvről való gondolkodással – mi működik és mi nem.

Képzelje el, hogy egy e-mail kampány tárgyát írja, amely a listán szereplő 10 millió emberhez fog eljutni, és 20%-os kedvezménnyel hirdeti meg egy divatos új laptopot.

Melyik sort választanád:

  • Most extra 20% kedvezményt kaphat a következő rendeléséből
  • Készülj fel – extra 20% kedvezmény

Bár ugyanazt az információt közvetítik, az egyik közel 15%-kal magasabb nyitottsági arányt ért el, mint a másik (és lefogadom, hogy nem tudja felülmúlni a modellünket abban, hogy megjósolja, melyik?). Míg a nyelv gyakran tesztelhető A / B tesztelés or többkarú banditák, a parafrázisok automatikus generálása továbbra is valóban kihívást jelentő kutatási probléma.

Két mondat akkor tekinthető egymás parafrázisának, ha ugyanazt a jelentést hordozza, és felcserélhetően használhatók. Egy másik fontos dolog, amelyet gyakran magától értetődőnek tekintenek, az az, hogy egy géppel generált mondat folyékony-e.

Ellentétben a felügyelt tanulással, a megerősítő tanulási (RL) ügynökök a környezetükkel való interakción keresztül tanulnak, és megfigyelik az ennek eredményeként kapott jutalmakat. Ez a némileg árnyalt különbség jelentős hatással van az algoritmusok működésére és a modellek képzésére. Mély megerősítésű tanulás neurális hálózatokat használ függvény közelítőként, hogy lehetővé tegye az ügynök számára, hogy megtanulja, hogyan lehet felülmúlni az embereket összetett környezetben, mint pl. Go, Atari és StarCraft II.

A siker ellenére a megerősítő tanulást nem alkalmazták széles körben a való világ problémáira, beleértve a természetes nyelvi feldolgozást (NLP).

Részemént MSc szakdolgozat adattudományból, bemutatjuk, hogyan használható a Deep RL a felügyelt tanulási módszerek felülmúlására a bemeneti szöveg parafrázisainak automatikus generálásakor. A legjobb parafrázis létrehozásának problémája úgy tekinthető, mint annak a szósorozatnak a megtalálása, amely maximalizálja a mondatok közötti szemantikai hasonlóságot, miközben megőrzi a kimenet folyékonyságát. Az RL-ügynökök kiválóan alkalmasak arra, hogy megtalálják a legjobb műveletsort a vezérlőkörnyezetben a maximális elvárt jutalom eléréséhez.

A gépi tanulás legtöbb problémájával ellentétben a legtöbb Natural Language Generation (NLG) alkalmazásban a legnagyobb probléma nem a modellezésben, hanem sokkal inkább az értékelésben rejlik. Míg az emberi értékelés jelenleg az NLG kiértékelésben az arany standardnak számít, jelentős hátrányai vannak, mint például a drága, időigényes, kihívást jelentő hangolás, valamint a kísérletek és adatkészletek közötti reprodukálhatóság hiánya. (Han, 2016). Ennek eredményeként a kutatók régóta keresnek olyan automatikus mérőszámokat, amelyek egyszerűek, általánosíthatóak és tükrözik az emberi megítélést. (Papineni et al., 2002).

Az alábbiakban összefoglaljuk a gép által generált képfeliratok kiértékelésének leggyakoribb automatikus értékelési módszereit, azok előnyeit és hátrányait:

Parafrázis-generálás megerősítési tanulási folyamat segítségével

Kifejlesztettünk egy ParaPhrasee nevű rendszert, amely kiváló minőségű parafrázisokat generál. A rendszer több lépésből áll a megerősítő tanulás számításilag hatékony alkalmazása érdekében. A magas szintű csővezeték rövid összefoglalása az alábbiakban látható, részletesebben pedig a tézis.

adatbázisba

Számos parafrázis-adatkészlet áll rendelkezésre, amelyeket kutatásban használnak, beleértve: a Microsoft Paraphrase korpusz, Az ACL szemantikus szöveghasonlósági versenye, Quora ismétlődő kérdésekés Twitter megosztott linkek. kiválasztottuk MS-COCO méretét, tisztaságát és viszonyítási alapként való felhasználását tekintve két figyelemreméltó parafrázisgenerációs dolgozathoz. Az MS-COCO 120 5 képet tartalmaz általános jelenetekről, képenként 5 képaláírással, amelyeket XNUMX különböző emberi annotátor biztosít.

Bár elsősorban számítógépes látáskutatásra tervezték, a feliratok általában nagy szemantikai hasonlóságot mutatnak, és érdekes parafrázisok. Tekintettel arra, hogy a képaláírásokat különböző személyek adják, a jelenet részleteiben általában kis eltérések mutatkoznak, ezért a generált mondatok hajlamosak részleteket hallucinálni.

Felügyelt modell

Míg a megerősítő tanulás jelentősen javult a minta hatékonysága, a képzési idő és az általánosan bevált gyakorlatok tekintetében, az RL modellek alapból történő betanítása még mindig viszonylag nagyon lassú és instabil. (Arulkumaran et al., 2017). Ezért ahelyett, hogy a nulláról oktatnánk, először betanítunk egy felügyelt modellt, majd az RL segítségével finomhangoljuk.

Használunk egy Kódoló-dekódoló modell keretrendszerét, és értékelje több felügyelt alapmodell teljesítményét. A modell RL használatával történő finomhangolásakor csak a dekóder hálózatot finomhangoljuk, és a kódoló hálózatot statikusként kezeljük. Ennek megfelelően két fő keretrendszert veszünk figyelembe:

  • A felügyelt modell betanítása a semmiből standard/vanília kódoló dekóderrel GRU-kkal
  • Előképzett mondatbeágyazási modellek használata a kódolóhoz, beleértve: összevont szóbeágyazásokat (GloVe), InferSent és BERT

A felügyelt modellek általában meglehetősen hasonlóan teljesítenek a legjobb teljesítményt nyújtó BERT és vanília kódoló-dekódoló modelleknél.

Bár az előadás általában ésszerű, három gyakori hibaforrás van: dadogás, mondattöredékek generálása és hallucinációk. Ezek azok a fő problémák, amelyeket az RL használatával megoldani kíván.

Megerősítő tanulási modell

Az RL algoritmusok megvalósítása nagy kihívást jelent, különösen akkor, ha nem tudja, hogy a probléma megoldható-e. Problémák adódhatnak környezetének, ügynökeinek, hiperparamétereinek, jutalmazási funkciójának megvalósításában vagy a fentiek kombinációjában! Ezek a problémák súlyosbodnak, ha mély RL-t végez, miközben élvezi a hozzáadott összetettséget neurális hálózatok hibakeresése.

Mint minden hibakeresésnél, ez is kulcsfontosságú kezdje egyszerűen. Két jól ismert RL játékkörnyezet (CartPole és FrozenLake) változatait valósítottuk meg, hogy teszteljük az RL algoritmusokat, és megismételhető stratégiát találjunk a felügyelt modellből származó tudás átadására.

Azt találtuk, hogy egy Színész-kritikus algoritmus felülmúlta a REINFORCE-t ezekben a környezetekben. Az ismeretek színész-kritikus modellbe történő átadása tekintetében azt találtuk, hogy a színész súlyainak inicializálása a betanított felügyelt modellel és a kritikus előképzése érte el a legjobb teljesítményt. Nehéznek találtuk a kifinomult irányelv-lepárlási megközelítések általánosítását új környezetekben, mivel számos új hiperparamétert vezetnek be, amelyek működéséhez hangolásra van szükség.

Ezekkel a meglátásokkal támogatva ezután a parafrázisgenerálási feladat megközelítésének kidolgozásához fordulunk. Először is környezetet kell teremtenünk.

A környezet lehetővé teszi számunkra, hogy könnyen teszteljük a különböző értékelési mérőszámok jutalmazási függvényként történő felhasználásának hatását.

Ezután meghatározzuk az ügynököt, mivel annak számos előnye miatt színészkritikus architektúrát használunk. A szereplő a sorozat következő szavának kiválasztására szolgál, és annak súlyait a felügyelt modell segítségével inicializálják. A kritikus becslést ad arra a várható jutalomra, amelyet egy állam valószínűleg megkap, hogy segítse a színészt a tanulásban.

A megfelelő jutalmazási funkció megtervezése

Az RL rendszer tervezésének legfontosabb összetevője a jutalmazási függvény, mivel az RL ügynök ezt próbálja optimalizálni. Ha a jutalmazási funkció hibás, akkor az eredmény akkor is csorbát szenved, ha a rendszer minden más része működik!

Klasszikus példa erre CoastRunners ahol az OpenAI kutatói a jutalmazási funkciót az összpontszám maximalizálásaként határozták meg, nem pedig a verseny megnyerésében. Ennek eredménye az, hogy az ügynök felfedezett egy hurkot, ahol a legmagasabb pontszámot érheti el turbók megütésével anélkül, hogy befejezte volna a versenyt.

Tekintettel arra, hogy a parafrázisok minőségének értékelése önmagában megoldatlan probléma, még nehezebb megtervezni egy jutalmazási függvényt, amely automatikusan megragadja ezt a célt. A nyelv legtöbb aspektusa nem bomlik le szépen lineáris metrikákra, és feladatfüggő (Novikova et al., 2017).

Az RL ügynök gyakran felfedez egy érdekes stratégiát a jutalmak maximalizálására, amely az értékelési metrika gyengeségeit használja ki ahelyett, hogy jó minőségű szöveget generálna. Ez általában gyenge teljesítményt eredményez azokon a metrikákon, amelyeket az ügynök nem közvetlenül optimalizál.

Három fő megközelítést vizsgálunk:

  1. Szóátfedési mérőszámok

Az általános NLP-értékelési mérőszámok figyelembe veszik a szóátfedés arányát a generált parafrázis és az értékelő mondat között. Minél nagyobb az átfedés, annál nagyobb a jutalom. A szószintű megközelítésekkel az a kihívás, hogy az ügynök túl sok összekötő szót tartalmaz, mint például az „a is on of”, és nincs mérhető a folyékonyság. Ez nagyon rossz minőségű parafrázisokat eredményez.

  1. Mondatszintű hasonlósági és folyékonysági mérőszámok

A generált parafrázis fő tulajdonsága, hogy gördülékenynek és szemantikailag hasonlónak kell lennie a bemeneti mondathoz. Ezért megpróbáljuk ezeket külön-külön pontozni, majd kombinálni a mutatókat. A szemantikai hasonlóság érdekében a koszinusz-hasonlóságot használjuk az előre betanított modellek mondatbeágyazásai között, beleértve a BERT-et is. A folyékonyság érdekében a GPT-2 mondatának zavarosságán alapuló pontszámot használunk. Minél nagyobb a koszinusz-hasonlóság és a folyékonyság pontszáma, annál nagyobb a jutalom.

Kipróbáltuk a mondatbeágyazási modellek és a folyékonysági modellek sokféle kombinációját, és bár a teljesítmény ésszerű volt, a fő probléma, amellyel az ügynök szembesült, a szemantikai hasonlóság és a folyékonyság közötti egyensúly hiánya volt. A legtöbb konfigurációnál az ügynök a folyékonyságot részesítette előnyben, ami a részletek eltávolítását eredményezte, és a legtöbb entitást valami „közepébe” helyezték, vagy „egy asztalra” vagy „az út szélére” helyezték át.

A többcélú megerősítéses tanulás nyitott kutatási kérdés, és ebben az esetben nagy kihívást jelent.

  1. A kontradiktórius modell használata jutalmazási funkcióként

Tekintettel arra, hogy az embereket tekintik az értékelés során az arany standardnak, egy külön modellt képezünk ki, amelyet megkülönböztetőnek nevezünk annak előrejelzésére, hogy két mondat egymás parafrázisa-e vagy sem (hasonlóan ahhoz, ahogyan az ember értékelné). Az RL modell célja ezután az, hogy meggyőzze ezt a modellt arról, hogy a generált mondat a bemenet parafrázisa. A diszkriminátor pontszámot generál arra vonatkozóan, hogy a két mondat mennyire valószínű, hogy egymás parafrázisa, amelyet jutalomként használnak az ügynök képzésére.

Minden 5,000 találgatás után a diszkriminátor közli, hogy melyik parafrázis származik az adatkészletből, és melyiket generálták, hogy javíthassa jövőbeli találgatásait. A folyamat több körön keresztül folytatódik, miközben az ügynök megpróbálja becsapni a megkülönböztetőt, a megkülönböztető pedig megpróbálja megkülönböztetni a generált parafrázisokat és a kiértékelő parafrázisokat az adatkészletből.

Több képzési kör után az ügynök olyan parafrázisokat generál, amelyek felülmúlják a felügyelt modelleket és más jutalmazási funkciókat.

Következtetés és korlátok

Az ellenérdekű megközelítések (beleértve a játékok saját játékát is) rendkívül ígéretes megközelítést kínálnak az RL algoritmusok képzéséhez, hogy bizonyos feladatokon felülmúlják az emberi szintű teljesítményt anélkül, hogy kifejezett jutalmazási funkciót határoznának meg.

Míg az RL ebben az esetben felül tudta múlni a felügyelt tanulást, a kód, a számítás és a bonyolultság tekintetében felmerülő többletköltség a legtöbb alkalmazás esetében nem éri meg a teljesítménynövekedést. Az RL-t legjobb olyan helyzetekre hagyni, ahol a felügyelt tanulás nem alkalmazható könnyen, és a jutalom funkció könnyen meghatározható (például Atari játékok). A megközelítések és algoritmusok sokkal érettebbek a felügyelt tanulásban, és a hibajelzés sokkal erősebb, ami sokkal gyorsabb és stabilabb edzést eredményez.

Egy másik szempont az, hogy más neurális megközelítésekhez hasonlóan az ágens drámaian meghibásodhat azokban az esetekben, amikor a bemenet eltér a korábban látott bemenetektől, ami további józansági ellenőrzést tesz szükségessé az éles alkalmazásokhoz.

Az RL-megközelítések és a számítási infrastruktúra terén az elmúlt években tapasztalt robbanásszerű érdeklődés hatalmas lehetőségeket nyit meg az RL iparban történő alkalmazásában, különösen az NLP-n belül.

Andrew Gibbs-Bravo adatkutató a cégnél Kifejezés a Phrasee világelső, mesterséges intelligenciával hajtott szövegírása mögötti technológia fejlesztésére összpontosított. Emellett társszervezője a londoni megerősítési tanulási közösség találkozójának, és minden iránt érdeklődik az RL, az NLP és a gépi tanulás iránt.