Seguici sui social

Generazione di parafrasi utilizzando il Deep Reinforcement Learning – Leader di pensiero

Intelligenza Artificiale

Generazione di parafrasi utilizzando il Deep Reinforcement Learning – Leader di pensiero

mm

Scrivendo o parlando, tutti ci siamo chiesti se esiste un modo migliore per comunicare un'idea agli altri. Quali parole dovrei usare? Come devo strutturare il pensiero? Come è probabile che rispondano? A Phrasee, passiamo molto tempo a pensare al linguaggio: cosa funziona e cosa no.

Immagina di scrivere l'oggetto di una campagna e-mail che andrà a 10 milioni di persone nella tua lista promuovendo il 20% di sconto su un nuovo laptop di lusso.

Quale linea sceglieresti:

  • Ora puoi ottenere uno sconto extra del 20% sul tuo prossimo ordine
  • Preparati: uno sconto extra del 20%.

Mentre trasmettono le stesse informazioni, uno ha raggiunto un tasso di apertura superiore di quasi il 15% rispetto all'altro (e scommetto che non puoi battere il nostro modello nel prevedere quale?). Mentre la lingua può spesso essere testata A / B testing or banditi multi-armati, la generazione automatica di parafrasi rimane un problema di ricerca davvero impegnativo.

Due frasi sono considerate parafrasi l'una dell'altra se condividono lo stesso significato e possono essere usate in modo intercambiabile. Un'altra cosa importante che spesso viene data per scontata è se una frase generata da una macchina è fluente.

A differenza dell'apprendimento supervisionato, gli agenti di Reinforcement Learning (RL) apprendono interagendo con il loro ambiente e osservando le ricompense che ricevono come risultato. Questa differenza alquanto sfumata ha enormi implicazioni su come funzionano gli algoritmi e su come vengono addestrati i modelli. Apprendimento di rinforzo profondo utilizza le reti neurali come approssimatore di funzioni per consentire all'agente di apprendere come superare gli umani in ambienti complessi come Go, Atari e Starcraft II.

Nonostante questo successo, l’apprendimento per rinforzo non è stato ampiamente applicato ai problemi del mondo reale, inclusa l’elaborazione del linguaggio naturale (PNL).

Come parte del mio Tesi di Laurea Magistrale in Data Science, dimostriamo come Deep RL può essere utilizzato per superare i metodi di apprendimento supervisionato nella generazione automatica di parafrasi del testo di input. Il problema di generare la migliore parafrasi può essere visto come trovare la serie di parole che massimizza la somiglianza semantica tra le frasi mantenendo fluidità nell'output. Gli agenti RL sono adatti per trovare il miglior set di azioni per ottenere la massima ricompensa prevista in ambienti di controllo.

A differenza della maggior parte dei problemi dell’apprendimento automatico, il problema più grande nella maggior parte delle applicazioni di generazione del linguaggio naturale (NLG) non risiede nella modellazione ma piuttosto nella valutazione. Sebbene la valutazione umana sia attualmente considerata il gold standard nella valutazione NLG, presenta notevoli svantaggi, tra cui il fatto di essere costosa, dispendiosa in termini di tempo, difficile da ottimizzare e priva di riproducibilità tra esperimenti e set di dati. (Han, 2016). Di conseguenza, i ricercatori sono da tempo alla ricerca di metriche automatiche che siano semplici, generalizzabili e che riflettano il giudizio umano (Papineni et al., 2002).

I metodi di valutazione automatica più comuni nella valutazione delle didascalie delle immagini generate dalla macchina sono riassunti di seguito con i loro pro e contro:

Generazione di parafrasi utilizzando la pipeline di apprendimento per rinforzo

Abbiamo sviluppato un sistema chiamato ParaPhrasee che genera parafrasi di alta qualità. Il sistema è costituito da più passaggi per applicare l'apprendimento per rinforzo in modo efficiente dal punto di vista computazionale. Di seguito è riportato un breve riepilogo della pipeline di alto livello con maggiori dettagli contenuti nel tesi.

dataset

Sono disponibili diversi set di dati di parafrasi che vengono utilizzati nella ricerca, tra cui: the Corpus di parafrasi Microsoft, Concorso di similarità semantica del testo di ACL, Domande duplicate di Quorae Link condivisi su Twitter. Abbiamo selezionato MS-COCO date le sue dimensioni, la pulizia e l'uso come punto di riferimento per due importanti documenti di generazione di parafrasi. MS-COCO contiene 120 immagini di scene comuni con 5 didascalie per immagine fornite da 5 diversi annotatori umani.

Sebbene sia progettato principalmente per la ricerca sulla visione artificiale, le didascalie tendono ad avere un'elevata somiglianza semantica e sono parafrasi interessanti. Dato che le didascalie delle immagini sono fornite da persone diverse, tendono ad avere leggere variazioni nei dettagli forniti nella scena, pertanto le frasi generate tendono a creare allucinazioni.

Modello supervisionato

Sebbene l'apprendimento per rinforzo sia notevolmente migliorato in termini di efficienza del campione, tempi di addestramento e best practice complessive, l'addestramento dei modelli RL da zero è ancora relativamente molto lento e instabile (Arulkumaran et al., 2017). Pertanto, invece di addestrare da zero, addestriamo prima un modello supervisionato e poi lo ottimizziamo utilizzando RL.

Usiamo un file Codificatore-decodificatore struttura del modello e valutare le prestazioni di diversi modelli supervisionati di base. Quando ottimizziamo il modello utilizzando RL, ottimizziamo solo la rete del decodificatore e trattiamo la rete dell'encoder come statica. Pertanto, consideriamo due framework principali:

  • Addestrare da zero il modello supervisionato utilizzando un decodificatore codificatore standard/vanilla con GRU
  • Utilizzo di modelli di incorporamento di frasi preaddestrati per il codificatore, tra cui: incorporamenti di parole in pool (GloVe), InferSent e BERT

I modelli supervisionati tendono a funzionare in modo abbastanza simile tra i modelli con BERT e il codificatore-decodificatore vanilla che ottengono le migliori prestazioni.

Mentre la performance tende ad essere ragionevole, ci sono tre comuni fonti di errore: balbuzie, generazione di frammenti di frasi e allucinazioni. Questi sono i problemi principali che l'utilizzo di RL mira a risolvere.

Modello di Apprendimento per Rinforzo

Implementare algoritmi di RL è molto impegnativo, soprattutto quando non si sa se il problema possa essere risolto. Possono esserci problemi nell'implementazione dell'ambiente, degli agenti, degli iperparametri, della funzione di ricompensa o di una combinazione di tutto quanto sopra! Questi problemi si aggravano quando si affronta un RL più approfondito, poiché ci si diverte con la complessità aggiuntiva del debug delle reti neurali.

Come per tutti i debug, è fondamentale iniziare semplice. Abbiamo implementato variazioni di due ambienti RL giocattolo ben conosciuti (CartPole e FrozenLake) per testare gli algoritmi RL e trovare una strategia ripetibile per trasferire la conoscenza dal modello supervisionato.

Abbiamo scoperto che l'utilizzo di un algoritmo Actor-Critic ha superato REINFORCE in questi ambienti. In termini di trasferimento della conoscenza al modello Actor-Critic, abbiamo scoperto che l'inizializzazione dei pesi dell'attore con il modello supervisionato addestrato e il pre-addestramento del critic hanno prodotto le migliori prestazioni. Abbiamo riscontrato difficoltà a generalizzare approcci sofisticati di distillazione delle policy a nuovi ambienti, poiché introducono molti nuovi iperparametri che richiedono una messa a punto per funzionare.

Supportati da queste intuizioni, ci rivolgiamo quindi allo sviluppo di un approccio per il compito di generazione della parafrasi. Per prima cosa dobbiamo creare un ambiente.

L'ambiente ci consente di testare facilmente l'impatto dell'utilizzo di diverse metriche di valutazione come funzioni di ricompensa.

Definiamo quindi l'agente, dati i suoi numerosi vantaggi, utilizziamo un'architettura attore-critica. L'attore viene utilizzato per selezionare la parola successiva nella sequenza e i suoi pesi vengono inizializzati utilizzando il modello supervisionato. Il critico fornisce una stima della ricompensa attesa che uno stato probabilmente riceverà per aiutare l'attore a imparare.

Progettare la giusta funzione di ricompensa

La componente più importante della progettazione di un sistema RL è la funzione di ricompensa poiché è ciò che l'agente RL sta cercando di ottimizzare. Se la funzione di ricompensa non è corretta, i risultati ne risentiranno anche se ogni altra parte del sistema funziona!

Un classico esempio di questo è CoastRunner dove i ricercatori OpenAI hanno impostato la funzione di ricompensa come massimizzare il punteggio totale piuttosto che vincere la gara. Il risultato è che l'agente ha scoperto un loop in cui poteva ottenere il punteggio più alto colpendo i turbo senza mai completare la gara.

Dato che valutare la qualità delle parafrasi è di per sé un problema irrisolto, progettare una funzione di ricompensa che catturi automaticamente questo obiettivo è ancora più difficile. La maggior parte degli aspetti del linguaggio non si scompone bene in metriche lineari e dipende dall'attività (Novikova et al., 2017).

L'agente RL scopre spesso una strategia interessante per massimizzare i premi che sfrutta i punti deboli nella metrica di valutazione piuttosto che generare testo di alta qualità. Ciò tende a comportare scarse prestazioni su metriche che l'agente non sta ottimizzando direttamente.

Consideriamo tre approcci principali:

  1. Metriche di sovrapposizione di parole

Le comuni metriche di valutazione della PNL considerano la percentuale di sovrapposizione di parole tra la parafrasi generata e la frase di valutazione. Maggiore è la sovrapposizione, maggiore è la ricompensa. La sfida con gli approcci a livello di parola è che l'agente include troppe parole di collegamento come "a is on of" e non c'è misura della fluidità. Ciò si traduce in parafrasi di qualità molto bassa.

  1. Metriche di somiglianza e fluidità a livello di frase

Le proprietà principali di una parafrasi generata sono che deve essere scorrevole e semanticamente simile alla frase di input. Pertanto, proviamo a classificarli in modo esplicito individualmente, quindi a combinare le metriche. Per la somiglianza semantica, usiamo la somiglianza del coseno tra incorporamenti di frasi da modelli preaddestrati, incluso BERT. Per fluidità, usiamo un punteggio basato sulla perplessità di una frase da GPT-2. Maggiore è la somiglianza del coseno e la fluidità, maggiore è la ricompensa.

Abbiamo provato molte diverse combinazioni di modelli di incorporamento di frasi e modelli di fluidità e, sebbene la performance fosse ragionevole, il problema principale affrontato dall'agente non era bilanciare sufficientemente la somiglianza semantica con la fluidità. Per la maggior parte delle configurazioni, l'agente ha dato la priorità alla fluidità con conseguente rimozione dei dettagli e la maggior parte delle entità sono state posizionate "al centro" di qualcosa o spostate "su un tavolo" o "sul lato della strada".

L'apprendimento per rinforzo multiobiettivo è una questione di ricerca aperta ed è molto impegnativo in questo caso.

  1. Utilizzo di un modello contraddittorio come funzione di ricompensa

Dato che gli esseri umani sono considerati il ​​gold standard nella valutazione, addestriamo un modello separato chiamato discriminatore per prevedere se due frasi sono parafrasi l'una dell'altra (simile al modo in cui un essere umano valuterebbe). L'obiettivo del modello RL è quindi convincere questo modello che la frase generata è una parafrasi dell'input. Il discriminatore genera un punteggio della probabilità che le due frasi siano parafrasi l'una dell'altra che viene utilizzato come ricompensa per addestrare l'agente.

Ogni 5,000 ipotesi, al discriminatore viene comunicato quale parafrasi proviene dal set di dati e quale è stata generata in modo che possa migliorare le sue ipotesi future. Il processo continua per diversi round con l'agente che cerca di ingannare il discriminatore e il discriminatore che cerca di distinguere tra le parafrasi generate e le parafrasi di valutazione dal set di dati.

Dopo diversi cicli di addestramento, l'agente genera parafrasi che superano i modelli supervisionati e altre funzioni di ricompensa.

Conclusione e limitazioni

Gli approcci contraddittori (incluso l'auto-gioco per i giochi) forniscono un approccio estremamente promettente per addestrare gli algoritmi RL a superare le prestazioni a livello umano su determinate attività senza definire una funzione di ricompensa esplicita.

Mentre RL è stato in grado di superare l'apprendimento supervisionato in questo caso, la quantità di sovraccarico extra in termini di codice, calcolo e complessità non vale il guadagno in termini di prestazioni per la maggior parte delle applicazioni. RL è meglio lasciare a situazioni in cui l'apprendimento supervisionato non può essere facilmente applicato e una funzione di ricompensa è facile da definire (come i giochi Atari). Gli approcci e gli algoritmi sono molto più maturi nell'apprendimento supervisionato e il segnale di errore è molto più forte, il che si traduce in un addestramento molto più veloce e stabile.

Un'altra considerazione è, come con altri approcci neurali, che l'agente può fallire in modo molto drammatico nei casi in cui l'input è diverso dagli input che ha visto in precedenza, richiedendo un ulteriore livello di controlli di integrità per le applicazioni di produzione.

L'esplosione di interesse negli approcci RL e nei progressi nell'infrastruttura computazionale negli ultimi anni sbloccherà enormi opportunità per l'applicazione di RL nell'industria, specialmente all'interno della PNL.

Andrew Gibbs-Bravo è Data Scientist presso Phrasee focalizzato sul miglioramento della tecnologia alla base del copywriting basato su AI leader mondiale di Phrasee. È anche il co-organizzatore del London Reinforcement Learning Community Meetup ed è interessato a tutto ciò che riguarda RL, PNL e apprendimento automatico.