ciot Generarea parafrazării utilizând învățare prin consolidare profundă - Lideri de gândire - Unite.AI
Conectează-te cu noi

Inteligenta Artificiala

Generarea de parafrazări folosind învățarea prin consolidare profundă – lideri de gândire

mm
Actualizat on

Când scriem sau vorbim, cu toții ne-am întrebat dacă există o modalitate mai bună de a comunica o idee altora. Ce cuvinte ar trebui să folosesc? Cum ar trebui să structurez gândul? Cum vor răspunde? La Phrasee, petrecem mult timp gândindu-ne la limbaj – ce funcționează și ce nu.

Imaginați-vă că scrieți subiectul unei campanii de e-mail care va ajunge la 10 milioane de oameni din lista dvs., promovând o reducere de 20% la un laptop nou.

Ce linie ai alege:

  • Acum puteți beneficia de o reducere suplimentară de 20% la următoarea comandă
  • Pregătește-te – o reducere suplimentară de 20%.

Deși transmit aceleași informații, unul a atins o rată de deschidere cu aproape 15% mai mare decât celălalt (și pun pariu că nu poți depăși modelul nostru la prezicerea pe care?). În timp ce limbajul poate fi adesea testat A / B de testare or bandiți multi-armate, generarea automată a parafrazelor rămâne o problemă de cercetare cu adevărat provocatoare.

Două propoziții sunt considerate parafrazări una ale celeilalte dacă au același sens și pot fi folosite interschimbabil. Un alt lucru important care este adesea luat de la sine înțeles este dacă o propoziție generată de mașini este fluentă.

Spre deosebire de învățarea supravegheată, agenții de învățare prin consolidare (RL) învață interacționând cu mediul lor și observând recompensele pe care le primesc ca rezultat. Această diferență oarecum nuanțată are implicații masive pentru modul în care funcționează algoritmii și modul în care sunt antrenate modelele. Învățare profundă de consolidare folosește rețelele neuronale ca aproximator al funcției pentru a permite agentului să învețe cum să depășească oamenii în medii complexe, cum ar fi Go, Atari și StarCraft II.

În ciuda acestui succes, învățarea prin întărire nu a fost aplicată pe scară largă problemelor din lumea reală, inclusiv procesarea limbajului natural (NLP).

Ca parte a mea Teză de master în știința datelor, demonstrăm modul în care Deep RL poate fi folosit pentru a depăși metodele de învățare supravegheată în generarea automată a parafrazelor de text introdus. Problema generării celei mai bune parafraze poate fi privită ca găsirea seriei de cuvinte care maximizează asemănarea semantică dintre propoziții, menținând în același timp fluența în rezultat. Agenții RL sunt potriviți pentru a găsi cel mai bun set de acțiuni pentru a obține recompensa maximă așteptată în mediile de control.

Spre deosebire de majoritatea problemelor din învățarea automată, cea mai mare problemă din majoritatea aplicațiilor Natural Language Generation (NLG) nu constă în modelare, ci mai degrabă în evaluare. În timp ce evaluarea umană este considerată în prezent standardul de aur în evaluarea NLG, aceasta suferă de dezavantaje semnificative, inclusiv costisitoare, consumatoare de timp, dificil de reglat și lipsă de reproductibilitate în experimente și seturi de date. (Han, 2016). Drept urmare, cercetătorii au căutat de multă vreme valori automate care să fie simple, generalizabile și care să reflecte judecata umană. (Papineni et al., 2002).

Cele mai comune metode de evaluare automată în evaluarea subtitrărilor de imagini generate de mașină sunt rezumate mai jos cu avantajele și dezavantajele lor:

Generarea de parafrazări folosind Reinforcement Learning Pipeline

Am dezvoltat un sistem numit ParaPhrasee care generează parafraze de înaltă calitate. Sistemul constă din mai mulți pași pentru a aplica învățarea prin întărire într-un mod eficient din punct de vedere computațional. Un scurt rezumat al conductei de nivel înalt este prezentat mai jos, cu mai multe detalii conținute în teză.

Setul de date

Există mai multe seturi de date parafraze disponibile care sunt utilizate în cercetare, inclusiv: the Microsoft Parafrazare corpus, Concursul de similaritate a textului semantic al ACL, Întrebări duplicate Quora, și Linkuri partajate Twitter. Noi am selectat MS-COCO având în vedere dimensiunea, curățenia și utilizarea sa ca punct de referință pentru două lucrări notabile de generare a parafrazelor. MS-COCO conține 120 de imagini cu scene obișnuite, cu 5 subtitrări pentru fiecare imagine furnizate de 5 adnotatori umani diferiți.

Deși este conceput în primul rând pentru cercetarea vederii computerizate, subtitrările tind să aibă o asemănare semantică mare și sunt parafraze interesante. Având în vedere că legendele imaginilor sunt furnizate de persoane diferite, acestea tind să aibă ușoare variații în detaliile furnizate în scenă, prin urmare propozițiile generate tind să halucineze detalii.

Model supravegheat

În timp ce învățarea prin consolidare s-a îmbunătățit considerabil în ceea ce privește eficiența eșantionului, timpul de antrenament și cele mai bune practici generale, antrenarea modelelor RL de la zero este încă relativ lentă și instabilă (Arulkumaran și colab., 2017). Prin urmare, mai degrabă decât să antrenăm de la zero, mai întâi antrenăm un model supravegheat și apoi îl ajustăm cu ajutorul RL.

Folosim un Encoder-Decoder cadru de model și să evalueze performanța mai multor modele de bază supravegheate. La reglarea fină a modelului folosind RL, reglam doar rețeaua de decodor și tratăm rețeaua de codificator ca fiind statică. Ca atare, luăm în considerare două cadre principale:

  • Antrenarea modelului supravegheat de la zero folosind un decodor standard/vanila cu GRU-uri
  • Folosirea modelelor de încorporare a propozițiilor preantrenate pentru codificator, inclusiv: încorporare de cuvinte în grup (GloVe), InferSent și BERT

Modelele supravegheate tind să aibă performanțe destul de similare între modele, BERT și codificatorul-decodor vanilla ating cele mai bune performanțe.

În timp ce performanța tinde să fie rezonabilă, există trei surse comune de eroare: bâlbâiala, generarea de fragmente de propoziție și halucinații. Acestea sunt principalele probleme pe care utilizarea RL își propune să le rezolve.

Modelul de învățare prin întărire

Implementarea algoritmilor RL este foarte dificilă, mai ales când nu știi dacă problema poate fi rezolvată. Pot exista probleme în implementarea mediului dvs., agenților dvs., hiperparametrilor dvs., funcției dvs. de recompensă sau o combinație a tuturor celor de mai sus! Aceste probleme sunt exacerbate atunci când faceți RL profund, pe măsură ce vă distrați de complexitatea adăugată depanarea rețelelor neuronale.

Ca și în cazul tuturor depanării, este esențial să începe simplu. Am implementat variații a două medii RL de jucărie bine înțelese (CartPole și FrozenLake) pentru a testa algoritmii RL și pentru a găsi o strategie repetabilă pentru transferul cunoștințelor din modelul supravegheat.

Am descoperit că folosind un Algoritmul actor-critic a depășit REINFORCE în aceste medii. În ceea ce privește transferul de cunoștințe la modelul actor-critic, am constatat că inițializarea ponderilor actorului cu modelul antrenat supravegheat și preantrenarea criticului a obținut cea mai bună performanță. Am considerat că este dificil să generalizăm abordări sofisticate de distilare a politicilor către noi medii, deoarece introduc mulți hiperparametri noi care necesită reglare pentru a funcționa.

Susținuți de aceste perspective, ne întoarcem apoi la dezvoltarea unei abordări pentru sarcina de generare a parafrazelor. Mai întâi trebuie să creăm un mediu.

Mediul ne permite să testăm cu ușurință impactul utilizării diferitelor valori de evaluare ca funcții de recompensă.

Definim apoi agentul, având în vedere numeroasele sale avantaje, folosim o arhitectură actor-critică. Actorul este folosit pentru a selecta următorul cuvânt din secvență și are ponderile inițializate folosind modelul supravegheat. Criticul oferă o estimare a recompensei așteptate pe care o va primi un stat pentru a ajuta actorul să învețe.

Proiectarea funcției corecte de recompensă

Cea mai importantă componentă a proiectării unui sistem RL este funcția de recompensă, deoarece aceasta este ceea ce agentul RL încearcă să optimizeze. Dacă funcția de recompensă este incorectă, atunci rezultatele vor avea de suferit chiar dacă toate celelalte părți ale sistemului funcționează!

Un exemplu clasic în acest sens este CoastRunners unde cercetătorii OpenAI au stabilit funcția de recompensă ca maximizarea scorului total, mai degrabă decât câștigarea cursei. Rezultatul este că agentul a descoperit o buclă în care ar putea obține cel mai mare scor lovind turbo fără a finaliza cursa.

Având în vedere că evaluarea calității parafrazelor este în sine o problemă nerezolvată, proiectarea unei funcții de recompensă care surprinde automat acest obiectiv este și mai dificilă. Cele mai multe aspecte ale limbajului nu se descompun frumos în metrici liniare și depind de sarcină (Novikova și colab., 2017).

Agentul RL descoperă adesea o strategie interesantă de maximizare a recompenselor care exploatează punctele slabe ale metricii de evaluare, mai degrabă decât să genereze text de înaltă calitate. Acest lucru tinde să aibă ca rezultat o performanță slabă asupra valorilor pe care agentul nu le optimizează direct.

Luăm în considerare trei abordări principale:

  1. Valori de suprapunere a cuvintelor

Măsurile comune de evaluare a NLP iau în considerare proporția de suprapunere a cuvintelor dintre parafraza generată și propoziția de evaluare. Cu cât suprapunerea este mai mare, cu atât recompensa este mai mare. Provocarea abordărilor la nivel de cuvânt este că agentul include prea multe cuvinte de legătură, cum ar fi „a este pe” și nu există nicio măsură de fluență. Acest lucru are ca rezultat parafraze de foarte slabă calitate.

  1. Similitudinea la nivel de propoziție și metrica de fluență

Principalele proprietăți ale unei parafraze generate sunt că trebuie să fie fluentă și similară din punct de vedere semantic cu propoziția de intrare. Prin urmare, încercăm să le punctăm în mod explicit individual, apoi combinăm valorile. Pentru similitudinea semantică, folosim asemănarea cosinus între înglobările de propoziții din modele preantrenate, inclusiv BERT. Pentru fluență, folosim un scor bazat pe perplexitatea unei propoziții din GPT-2. Cu cât este mai mare asemănarea cosinusului și scorurile de fluență, cu atât recompensa este mai mare.

Am încercat multe combinații diferite de modele de încorporare a propozițiilor și modele de fluență și, deși performanța a fost rezonabilă, principala problemă cu care se confrunta agentul nu a fost echilibrarea suficientă a similarității semantice cu fluența. Pentru majoritatea configurațiilor, agentul a prioritizat fluența, ducând la eliminarea detaliilor și majoritatea entităților fiind plasate „în mijlocul” a ceva sau mutate „pe o masă” sau „partea drumului”.

Învățarea prin întărire multi-obiectivă este o întrebare deschisă de cercetare și este foarte provocatoare în acest caz.

  1. Utilizarea unui model advers ca funcție de recompensă

Având în vedere că oamenii sunt considerați standardul de aur în evaluare, antrenăm un model separat numit discriminator pentru a prezice dacă două propoziții sunt sau nu parafrazări una pentru cealaltă (similar modului în care un om ar evalua). Scopul modelului RL este atunci de a convinge acest model că propoziția generată este o parafrază a intrării. Discriminatorul generează un scor cu privire la cât de probabil sunt cele două propoziții să fie parafrazări una pentru alta, care este folosit ca recompensă pentru a antrena agentul.

La fiecare 5,000 de ghiciri, discriminatorului i se spune ce parafrază provine din setul de date și care a fost generată, astfel încât să își poată îmbunătăți ipotezele viitoare. Procesul continuă pentru mai multe runde, agentul încercând să păcălească discriminatorul și discriminatorul încercând să facă diferența între parafrazele generate și parafrazele de evaluare din setul de date.

După mai multe runde de antrenament, agentul generează parafraze care depășesc modelele supravegheate și alte funcții de recompensă.

Concluzie și limitări

Abordările adverse (inclusiv auto-play-ul pentru jocuri) oferă o abordare extrem de promițătoare pentru antrenarea algoritmilor RL pentru a depăși performanța la nivel uman la anumite sarcini, fără a defini o funcție explicită de recompensă.

În timp ce RL a reușit să depășească învățarea supervizată în acest caz, cantitatea de cheltuieli suplimentare în ceea ce privește codul, calculul și complexitatea nu merită câștigul de performanță pentru majoritatea aplicațiilor. RL este cel mai bine lăsat în situațiile în care învățarea supravegheată nu poate fi aplicată cu ușurință, iar o funcție de recompensă este ușor de definit (cum ar fi jocurile Atari). Abordările și algoritmii sunt mult mai maturi în învățarea supravegheată, iar semnalul de eroare este mult mai puternic, ceea ce duce la un antrenament mult mai rapid și mai stabil.

O altă considerație este, ca și în cazul altor abordări neuronale, că agentul poate eșua foarte dramatic în cazurile în care intrarea este diferită de intrările pe care le-a văzut anterior, necesitând un nivel suplimentar de verificări de sănătate pentru aplicațiile de producție.

Explozia de interes pentru abordările RL și progresele în infrastructura computațională din ultimii câțiva ani va debloca oportunități uriașe de aplicare a RL în industrie, în special în cadrul NLP.

Andrew Gibbs-Bravo este Data Scientist la Phrasee concentrat pe îmbunătățirea tehnologiei din spatele Copywriting-ului Phrasee, lider mondial, bazat pe inteligență artificială. El este, de asemenea, co-organizator al London Reinforcement Learning Community Meetup și este interesat de toate lucrurile RL, NLP și machine learning.