Intelligenza Artificiale

I modelli di PNL lottano per comprendere le frasi nominali ricorsive

aggiornato on Dicembre 9, 2022

Ricercatori statunitensi e cinesi hanno scoperto che nessuno dei principali modelli di elaborazione del linguaggio naturale (NLP) sembra essere in grado, per impostazione predefinita, di svelare frasi inglesi che presentano frasi nominali ricorsive (NP) e di "faticare" a individuare il significato centrale in esempi strettamente correlati come Il mio nuovo film preferito ed Il mio film preferito (ognuna delle quali ha un significato diverso).

In un esempio di titolo tratto dal giornale, ecco un piccolo enigma che i bambini spesso non riescono a risolvere: la seconda pallina è verde, ma la quinto palla è la 'seconda palla verde'. Fonte: https://arxiv.org/pdf/2112.08326.pdf

I ricercatori hanno impostato una Recursive Noun Phrase Challenge (RNPC) su diversi modelli di generazione di linguaggi open source installati localmente: GPT-3* di OpenAI, Google BERTAe di Facebook RoBERta ed BART, scoprendo che questi modelli all'avanguardia hanno raggiunto solo prestazioni "casuali". Concludono^†:

"I risultati mostrano che i LM allo stato dell'arte (SOTA) si sono perfezionati sullo standard parametri di riferimento dello stesso formato tutti lottano sul nostro set di dati, suggerendo che la conoscenza di destinazione non è prontamente disponibile.'

Esempi di coppia minima nella sfida RNPC in cui i modelli SOTA hanno commesso errori.

Negli esempi precedenti, i modelli non sono riusciti, ad esempio, a distinguere la disparità semantica tra un animale morto pericoloso (cioè un predatore che non rappresenta una minaccia perché è morto) e a pericoloso animale morto (come uno scoiattolo morto, che può contenere un virus dannoso ed è una minaccia attualmente attiva).

(Inoltre, sebbene la carta non lo tocchi, anche 'morto' è usato frequentemente come avverbio, che non affronta nessuno dei due casi)

Tuttavia, i ricercatori hanno anche scoperto che una formazione aggiuntiva o supplementare che include materiale RNPC può risolvere il problema:

"I modelli linguistici pre-addestrati con prestazioni SOTA sui benchmark NLU hanno una scarsa padronanza di questa conoscenza, ma possono ancora apprenderla se esposti a piccole quantità di dati da RNPC."

I ricercatori sostengono che la capacità di un modello linguistico di navigare in strutture ricorsive di questo tipo è essenziale per attività a valle come l'analisi del linguaggio, la traduzione e fanno un caso speciale per la sua importanza nelle routine di rilevamento dei danni:

"[Noi] consideriamo lo scenario in cui un utente interagisce con un agente orientato alle attività come Siri o Alexa e l'agente deve determinare se l'attività coinvolta nella query dell'utente è potenzialmente dannosa [vale a dire ai minori]. Scegliamo questo compito perché molti falsi positivi provengono da NP ricorsive.

'Per esempio, come fare una bomba fatta in casa è ovviamente dannoso mentre come fare una bomba da bagno fatta in casa è innocuo.'

Il carta è intitolato "Il mio nuovo film preferito" è il mio film preferito? Sondaggio della comprensione delle frasi nominali ricorsive, e proviene da cinque ricercatori dell'Università della Pennsylvania e uno dell'Università di Pechino.

Dati e metodo

Anche se il lavoro precedente ha studiato struttura sintattica delle NP ricorsive e la categorizzazione semantica dei modificatori, nessuno di questi approcci è sufficiente, secondo i ricercatori, per affrontare la sfida.

Pertanto, sulla base dell'uso di frasi nominali ricorsive con due modificatori, i ricercatori hanno cercato di stabilire se la conoscenza dei prerequisiti esiste nei sistemi SOTA NLP (non esiste); se può essere insegnato loro (può); cosa possono imparare i sistemi di PNL dalle NP ricorsive; e in che modo tale conoscenza può avvantaggiare le applicazioni a valle.

Il set di dati utilizzato dai ricercatori è stato creato in quattro fasi. La prima è stata la costruzione di un lessico modificatore contenente 689 esempi tratti dalla letteratura precedente e da nuovi lavori.

Successivamente i ricercatori hanno raccolto NP ricorsive dalla letteratura, corpora esistenti e aggiunte di loro invenzione. Le risorse testuali includevano il file Penn Treebank, e il Gigaword annotata corpo.

Quindi il team ha assunto studenti universitari preselezionati per creare esempi per i tre compiti che i modelli linguistici avrebbero dovuto affrontare, convalidandoli successivamente in 8,260 istanze valide.

Infine, sono stati assunti più studenti universitari preselezionati, questa volta tramite Amazon Mechanical Turk, per annotare ogni istanza come Human Intelligence Task (HIT), decidendo le controversie a maggioranza. Ciò ha ridotto le istanze a 4,567 esempi, che sono stati ulteriormente filtrati fino a 3,790 istanze più bilanciate.

I ricercatori hanno adattato vari set di dati esistenti per formulare le tre sezioni delle loro ipotesi di test, tra cui MNLI, SNLI, MPE ed ADEPT, addestrando tutti i modelli SOTA stessi, ad eccezione del modello HuggingFace, in cui è stato utilizzato un checkpoint.

Risultati

I ricercatori hanno scoperto che tutti i modelli "lottano" sui compiti RNPC, rispetto a un punteggio di accuratezza affidabile del 90% + per gli esseri umani, con i modelli SOTA che si comportano a livelli "casuali" (ovvero senza alcuna prova di abilità innata rispetto al caso casuale in risposta).

I risultati dei test dei ricercatori. Qui i modelli linguistici vengono testati rispetto alla loro accuratezza su un benchmark esistente, con la linea centrale che rappresenta le prestazioni umane equivalenti nei compiti.

Linee secondarie di indagine indicano che queste carenze possono essere compensate nella fase di addestramento o messa a punto della pipeline di un modello di PNL includendo specificamente la conoscenza di frasi nominali ricorsive. Una volta intrapresa questa formazione supplementare, i modelli sono stati realizzati "ottime prestazioni zero-shot su un rilevamento di danni estrinseci [attività]".

I ricercatori promettono di rilasciare il codice per questo lavoro all'indirizzo https://github.com/veronica320/Recursive-NPs.

Pubblicato originariamente dal 16 dicembre 2021 al 17 dicembre 2021, 6:55 GMT+2: collegamento ipertestuale interrotto corretto.

* GPT-3 Ada, che è il più veloce ma non il migliore della serie. Tuttavia, il modello Davinci più ampio "vetrina" non è disponibile per la messa a punto che comprende la frase successiva degli esperimenti dei ricercatori.

^† La mia conversione di citazioni in linea in collegamenti ipertestuali.