Intelligenza Artificiale

Perché il linguaggio storico è una sfida per l'intelligenza artificiale

aggiornato on Dicembre 9, 2022

Una delle sfide centrali dei sistemi di elaborazione del linguaggio naturale (NLP) è quella di ricavare intuizioni essenziali da un’ampia varietà di materiali scritti. Le fonti che contribuiscono a un set di dati di addestramento per un nuovo algoritmo PNL potrebbero essere linguisticamente diverse come Twitter, giornali a fogli larghi e riviste scientifiche, con tutte le eccentricità ricorrenti uniche per ciascuna di queste tre fonti.

In la maggior parte dei casi, è solo per l'inglese; e questo è solo per fonti di testo attuali o recenti. Quando un algoritmo di PNL deve considerare materiale che proviene da più epoche, in genere fa fatica a conciliare il modi molto diversi che le persone parlino o scrivano in comunità nazionali e subnazionali, e specialmente in diversi periodi della storia.

Tuttavia, l'utilizzo di dati di testo (come trattati storici e opere scientifiche venerabili) che attraversa epoche è un metodo potenzialmente utile per generare una supervisione storica di un argomento e per formulare ricostruzioni temporali statistiche che precedono l'adozione e il mantenimento di metriche per un dominio.

Ad esempio, le informazioni meteorologiche che contribuiscono ai modelli di IA predittivi del cambiamento climatico non sono state adeguatamente registrate in tutto il mondo fino 1880, mentre il data mining di testi classici offre dischi più vecchi dei principali eventi meteorologici che possono essere utili per fornire dati meteorologici pre-vittoriani.

Disallineamento temporale

A nuovo documento dell'Università di Washington e dell'Allen Institute for AI ha scoperto che anche un intervallo di cinque anni può causare disallineamento temporale che può far deragliare l'utilità di un modello di PNL pre-addestrato.

In tutti i casi, i punteggi più alti sono migliori. Qui vediamo una heatmap del degrado temporale attraverso quattro corpus di materiale testuale che coprono un periodo di cinque anni. Tali discrepanze tra i dati di addestramento e di valutazione, secondo gli autori del nuovo articolo, possono causare un "enorme calo delle prestazioni". Fonte: https://arxiv.org/pdf/2111.07408.pdf

In tutti i casi, i punteggi più alti sono migliori. Qui vediamo una mappa termica del degrado temporale attraverso quattro corpora di materiale testuale che copre un periodo di cinque anni. Tali discrepanze tra i dati di addestramento e di valutazione, secondo gli autori del nuovo documento, possono causare un "enorme calo delle prestazioni". Fonte: https://arxiv.org/pdf/2111.07408.pdf

Il documento afferma:

'Abbiamo scoperto che il disallineamento temporale influisce sia sulla generalizzazione del modello linguistico che sulle prestazioni del compito. Troviamo notevoli variazioni nel degrado tra domini di testo e attività. In 5 anni, il punteggio F1 dei classificatori può deteriorarsi fino a 40 punti (affiliazione politica su Twitter) o anche solo 1 punto (valutazioni delle recensioni di Yelp). Due compiti distinti definiti sullo stesso dominio possono mostrare diversi livelli di degrado nel tempo.'

Divisioni irregolari

Il problema principale è che i set di dati di addestramento sono generalmente divisi in due gruppi, a volte con un rapporto 80/20 piuttosto sbilanciato, a causa della limitata disponibilità di dati. Il gruppo di dati più grande viene addestrato su una rete neurale, mentre i dati rimanenti vengono utilizzati come gruppo di controllo per testare l'accuratezza dell'algoritmo risultante.

In set di dati misti contenenti materiale che copre un certo numero di anni, una distribuzione non uniforme di dati di vari periodi potrebbe significare che i dati di valutazione sono composti in modo eccessivo da materiale di un'epoca particolare.

Ciò farà sì che sia un terreno di prova scadente per un modello addestrato su un mix più diversificato di epoche (vale a dire su una parte maggiore dell'intero dato disponibile). In effetti, a seconda che i dati di valutazione delle minoranze sovrarappresentino materiale nuovo o vecchio, è come chiedere a tuo nonno di valutare gli ultimi idoli K-Pop.

La lunga soluzione sarebbe quella di addestrare più modelli su set di dati molto più limitati nel tempo e tentare di raccogliere funzionalità compatibili dai risultati di ciascun modello. Tuttavia, inizializzazione del modello casuale pratiche da sole significa che questo approccio affronta la propria serie di problemi nel raggiungere la parità e l'equità tra modelli, anche prima di considerare se i set di dati multipli che contribuiscono fossero adeguatamente simili tra loro per rendere l'esperimento significativo.

Dati e Formazione

Per valutare il disallineamento temporale, gli autori hanno addestrato quattro corpora di testo in quattro domini:

Twitter
… dove hanno raccolto dati non etichettati estraendo una selezione casuale di 12 milioni di tweet distribuiti uniformemente tra il 2015-2020, dove gli autori hanno studiato entità denominate (cioè persone e organizzazioni) e affiliazioni politiche.

Articoli scientifici
… dove gli autori hanno ottenuto dati non etichettati dal Corpus di studiosi semantici, che costituiscono 650,000 documenti che coprono un periodo di 30 anni, e su cui hanno studiato la classificazione del tipo di menzione (SciERC) e classificazione delle sedi AI (AIC, che distingue se un articolo è stato pubblicato in AAAA or ICML).

Notizie Articoli
… dove gli autori hanno utilizzato nove milioni di articoli dal Set di dati della redazione nel periodo 2009-2016, durante il quale hanno svolto tre attività: riepilogo della redazione, classificazione dell'editore e classificazione dei frame multimediali (MFC), quest'ultima attività esamina la priorità percepita di vari argomenti nell'output delle notizie.

Recensioni di cibo
… dove i ricercatori hanno usato il Yelp Apri set di dati su un unico compito: review rating rating (YELPCLS), una tradizionale sfida di analisi del sentiment tipica di gran parte della ricerca sulla PNL in questo settore.

Risultati

I modelli sono stati valutati su GPT-2, con un intervallo di risultati Punteggio F1. Gli autori hanno scoperto che la perdita di prestazioni dovuta al disallineamento temporale è bidirezionale, il che significa che i modelli formati su dati recenti possono essere influenzati negativamente dall'influenza di dati più vecchi e viceversa (vedere l'immagine all'inizio dell'articolo per i grafici). Gli autori notano che ciò ha implicazioni particolari per le applicazioni delle scienze sociali.

In generale, i risultati mostrano che il disallineamento temporale degrada la perdita di prestazioni "sostanzialmente" e ha un ampio effetto sulla maggior parte delle attività. I set di dati che coprono periodi molto lunghi, come decenni, aggravano naturalmente il problema.

Gli autori osservano inoltre che il disallineamento temporale influisce anche sui dati di pretraining etichettati e non. Inoltre, i loro tentativi di mitigare gli effetti tramite l'adattamento del dominio (vedi sotto) non hanno migliorato sostanzialmente la situazione, sebbene affermino che la messa a punto delle informazioni sui dati nel set di dati può aiutare in una certa misura.

Conclusione

I ricercatori confermano le precedenti scoperte che coinvolgevano i rimedi suggeriti in precedenza adattamento del dominio (DAPT, dove l'indennità è predisposta per la disparità di dati) e adattamento temporale (dove i dati sono selezionati per periodo di tempo) fanno ben poco per alleviare il problema.

Il documento conclude*:

"I nostri esperimenti hanno rivelato notevoli variazioni nel degrado temporale tra le attività, più di quanto riscontrato in studi precedenti. Questi risultati motivano lo studio continuo del disallineamento temporale tra le applicazioni della PNL, la sua considerazione nelle valutazioni dei benchmark e la vigilanza da parte dei professionisti in grado di monitorare le prestazioni del sistema in tempo reale nel tempo.

"In particolare, abbiamo osservato che la formazione continua dei LM sui dati allineati temporalmente non ha molto effetto, motivando ulteriori ricerche per trovare metodi di adattamento temporale efficaci che siano meno costosi della raccolta continua di set di dati annotati/etichettati nel tempo."

Gli autori suggeriscono che ulteriori indagini sull'apprendimento continuo, in cui i dati sono costantemente aggiornati, potrebbero essere utili a questo proposito, e che la deriva dei concetti e altri metodi per rilevare i cambiamenti nelle attività potrebbero essere un utile aiuto per l'aggiornamento dei set di dati.

* La mia conversione di citazioni in linea in collegamenti ipertestuali.