Intelligenza artificiale
Perché il Linguaggio Storico è una Sfida per l’Intelligenza Artificiale
Una delle sfide centrali dei sistemi di Natural Language Processing (NLP) è derivare informazioni essenziali da una vasta gamma di materiali scritti. Le fonti contributive per un set di dati di training per un nuovo algoritmo NLP potrebbero essere così diversificate linguisticamente come Twitter, giornali broadsheet e riviste scientifiche, con tutte le eccentricità appellanti uniche di ciascuna di queste tre fonti.
Nella maggior parte dei casi, ciò vale solo per l’inglese; e ciò vale solo per le fonti di testo attuali o recenti. Quando un algoritmo NLP deve considerare materiali provenienti da più epoche, di solito lotta per riconciliare i modi molto diversi in cui le persone parlano o scrivono attraverso comunità nazionali e sub-nazionali, e specialmente attraverso periodi diversi della storia.
Tuttavia, utilizzare dati testuali (come trattati storici e opere scientifiche venerabili) che attraversano epoche è un metodo potenzialmente utile per generare una panoramica storica di un argomento e per formulare ricostruzioni cronologiche statistiche che precedono l’adozione e la manutenzione delle metriche per un dominio.
Ad esempio, le informazioni meteorologiche che contribuiscono ai modelli di intelligenza artificiale per la previsione del cambiamento climatico non sono state adeguatamente registrate in tutto il mondo fino al 1880, mentre l’estrazione di dati da testi classici offre registri più antichi di eventi meteorologici importanti che potrebbero essere utili per fornire dati meteorologici pre-vittoriani.
Disallineamento Temporale
Un nuovo articolo dell’Università di Washington e dell’Istituto Allen per l’Intelligenza Artificiale ha scoperto che anche un intervallo di tempo così breve come cinque anni può causare disallineamento temporale che può compromettere l’utilità di un modello NLP pre-addestrato.

In tutti i casi, punteggi più alti sono migliori. Qui vediamo una mappa di calore della degradazione temporale attraverso quattro corpora di materiale testuale che coprono un periodo di cinque anni. Tali discrepanze tra dati di training e di valutazione, secondo gli autori del nuovo articolo, possono causare un ‘massiccio calo delle prestazioni’. Fonte: https://arxiv.org/pdf/2111.07408.pdf
L’articolo afferma:
‘Abbiamo scoperto che il disallineamento temporale influisce sia sulla generalizzazione del modello linguistico che sulla prestazione del compito. Abbiamo trovato una notevole variazione nella degradazione attraverso i domini del testo e i compiti. In 5 anni, il punteggio F1 dei classificatori può deteriorarsi di tanto quanto 40 punti (affiliazione politica su Twitter) o di poco come 1 punto (valutazioni delle recensioni su Yelp). Due compiti distinti definiti sullo stesso dominio possono mostrare livelli di degradazione diversi nel tempo.’
Divisioni Disuguali
Il problema principale è che i set di dati di training sono generalmente divisi in due gruppi, a volte in un rapporto piuttosto sbilanciato di 80/20, a causa della limitata disponibilità di dati. Il gruppo più grande di dati viene addestrato su una rete neurale, mentre i dati rimanenti vengono utilizzati come gruppo di controllo per testare l’accuratezza dell’algoritmo risultante.
In set di dati misti che contengono materiale che copre un numero di anni, una distribuzione disuguale di dati da vari periodi potrebbe significare che i dati di valutazione sono in modo sproporzionato composti da materiale di un’epoca particolare.
Ciò causerà che sia un terreno di prova povero per un modello addestrato su una miscela più diversificata di epoche (cioè su più di tutti i dati disponibili). In effetti, a seconda di whether i dati di valutazione rappresentano in modo sproporzionato materiale più recente o più antico, è come chiedere al tuo nonno di valutare gli idoli K-Pop più recenti.
Il lungo workaround sarebbe quello di addestrare più modelli su set di dati più limitati nel tempo e cercare di raccogliere caratteristiche compatibili dai risultati di ciascun modello. Tuttavia, le pratiche di inizializzazione casuale del modello sole significano che questo approccio affronta i propri problemi nel raggiungere la parità e l’equità tra modelli – anche prima di considerare se i set di dati contributivi erano adeguatamente simili l’uno all’altro per rendere l’esperimento significativo.
Dati e Addestramento
Per valutare il disallineamento temporale, gli autori hanno addestrato quattro corpora di testo su quattro domini:
Twitter
…dove hanno raccolto dati non etichettati estraendo una selezione casuale di 12 milioni di tweet uniformemente distribuiti tra il 2015-2020, dove gli autori hanno studiato entità nominate (cioè persone e organizzazioni) e affiliazioni politiche.
Articoli Scientifici
…dove gli autori hanno ottenuto dati non etichettati dal corpus Semantic Scholar, costituito da 650.000 documenti che coprono un periodo di 30 anni, e su cui hanno studiato la classificazione del tipo di menzione (SciERC) e la classificazione della sede di pubblicazione dell’AI (AIC, che distingue se un articolo è stato pubblicato su AAAI o ICML).
Articoli di Notizie
…dove gli autori hanno utilizzato nove milioni di articoli dal Newsroom Dataset che coprono un periodo dal 2009 al 2016, su cui hanno eseguito tre compiti: riassunto delle notizie, classificazione dell’editore e classificazione dei frame dei media (MFC), che esamina la priorità percepita di vari argomenti attraverso la produzione di notizie.
Recensioni di Cibo
…dove i ricercatori hanno utilizzato il Yelp Open Dataset su un singolo compito: classificazione della valutazione delle recensioni (YELPCLS), una sfida di analisi dei sentimenti tradizionale tipica di molta ricerca NLP in questo settore.
Risultati
I modelli sono stati valutati su GPT-2, con una gamma di punteggi F1 risultanti. Gli autori hanno scoperto che la perdita di prestazioni a causa del disallineamento temporale è bidirezionale, il che significa che i modelli addestrati su dati recenti possono essere influenzati negativamente dall’influenza di dati più antichi, e viceversa (vedi immagine all’inizio dell’articolo per i grafici). Gli autori notano che ciò ha particolari implicazioni per le applicazioni delle scienze sociali.
In generale, i risultati mostrano che il disallineamento temporale degrada la perdita di prestazioni ‘sostanzialmente’ e ha un effetto ampio sulla maggior parte dei compiti. I set di dati che coprono periodi molto lunghi, come decenni, esacerbano naturalmente il problema.
Gli autori osservano inoltre che il disallineamento temporale influisce anche sui dati di pre-addestramento etichettati e non etichettati. Inoltre, i loro tentativi di mitigare gli effetti attraverso l’adattamento del dominio (vedi sotto) non hanno migliorato sostanzialmente la situazione, sebbene affermino che la fine-tuning delle informazioni sui dati nel set di dati può aiutare fino a un certo punto.
Conclusione
I ricercatori confermano le scoperte precedenti che le presunte soluzioni che coinvolgono adattamento del dominio (DAPT, dove si prevede la disparità dei dati) e adattamento temporale (dove i dati vengono selezionati per periodo di tempo) fanno poco per alleviare il problema.
L’articolo conclude*:
‘I nostri esperimenti hanno rivelato una notevole variazione nella degradazione temporale attraverso i compiti, più di quanto trovato in studi precedenti. Questi risultati motivano ulteriori studi sul disallineamento temporale attraverso le applicazioni dell’NLP, la sua considerazione nelle valutazioni di riferimento e la vigilanza da parte degli operatori in grado di monitorare le prestazioni del sistema in tempo reale.’
‘In particolare, abbiamo osservato che l’addestramento continuo dei modelli linguistici su dati allineati temporalmente non ha molto effetto, motivando ulteriori ricerche per trovare metodi di adattamento temporale efficaci che siano meno costosi della continua raccolta di set di dati etichettati/annotati nel tempo.’
Gli autori suggeriscono che ulteriori indagini sull’apprendimento continuo, dove i dati vengono costantemente aggiornati, potrebbero essere utili a questo riguardo, e che il drift di concetto e altri metodi di rilevamento di cambiamenti nei compiti potrebbero essere un aiuto utile per l’aggiornamento dei set di dati.
* La mia conversione delle citazioni in linea in collegamenti ipertestuali.












