Intelligenza artificiale

Modelli di scrittura generativa basati su AI spesso ‘copia e incolla’ i dati di origine

Published November 19, 2021

Updated April 28, 2026

Martin Anderson

Lo scrittore e imprenditore americano Wilson Mizner è spesso famosamente citato come dice ‘Quando rubi da un autore, è plagio; se rubi da molti, è ricerca’.

Allo stesso modo, l’ipotesi intorno alla nuova generazione di sistemi di scrittura creativa basati su AI è che le vaste quantità di dati alimentate ad essi durante la fase di addestramento hanno portato a una vera e propria astrazione di concetti e idee di alto livello; che questi sistemi hanno a disposizione la saggezza distillata di migliaia di autori contribuenti, da cui l’AI può formulare scritti innovativi e originali; e che coloro che utilizzano tali sistemi possono essere certi di non indulgere involontariamente nel plagio per procura.

È un presupposto che viene sfidato da un nuovo documento di un consorzio di ricerca (che include le divisioni di ricerca AI di Facebook e Microsoft), che ha scoperto che i modelli di linguaggio generativo basati su apprendimento automatico come la serie GPT ‘a volte copiano anche lunghi passaggi’ nel loro output suppostamente originale, senza attribuzione.

In alcuni casi, gli autori notano, GPT-2 duplica oltre 1.000 parole dal set di addestramento nel suo output.

Il documento è intitolato Quanto i modelli linguistici copiano dai loro dati di addestramento? Valutazione della novità linguistica nella generazione di testo utilizzando RAVEN, e è una collaborazione tra l’Università Johns Hopkins, Microsoft Research, New York University e Facebook AI Research.

RAVEN

Lo studio utilizza un nuovo approccio chiamato RAVEN (RAtingVErbalNovelty), un acronimo che è stato divertentemente torturato per riflettere il villain aviano di una poesia classica:

‘Questo acronimo si riferisce a “The Raven” di Edgar Allan Poe, in cui il narratore incontra un misterioso corvo che ripete continuamente, “Mai più!” Il narratore non può dire se il corvo stia semplicemente ripetendo qualcosa che ha sentito dire da un uomo, o se stia costruendo le sue stesse dichiarazioni (forse combinando mai e più)—la stessa ambiguità di base che il nostro documento affronta.’

I risultati del nuovo documento arrivano nel contesto di una forte crescita per i sistemi di scrittura di contenuti basati su AI che cercano di sostituire compiti di editing ‘semplici’, e anche di scrivere contenuti di lunghezza completa. Uno di tali sistemi ha ricevuto 21 milioni di dollari in finanziamenti di serie A all’inizio della settimana scorsa.

I ricercatori notano che ‘GPT-2 a volte duplica passaggi di addestramento che sono oltre 1.000 parole di lunghezza.‘ (il loro enfasi), e che i sistemi di linguaggio generativo propagano errori linguistici nei dati di origine.

I modelli linguistici studiati sotto RAVEN erano la serie di rilasci GPT fino a GPT-2 (gli autori non avevano accesso al momento a GPT-3), un Transformer, Transformer-XL e un LSTM.

Novità

Il documento nota che GPT-2 conia inflessioni nello stile di Bush 2 come ‘Swissified’, e derivazioni come ‘IKEA-ness’, creando tali parole nuove (che non appaiono nel set di addestramento di GPT-2) su principi linguistici derivati da spazi di alta dimensionalità stabiliti durante l’addestramento.

I risultati mostrano anche che ‘il 74% delle frasi generate da Transformer-XL ha una struttura sintattica che nessuna frase di addestramento ha’, indicando, come affermano gli autori, ‘i modelli linguistici neurali non memorizzano semplicemente; invece utilizzano processi produttivi che consentono loro di combinare parti familiari in modi nuovi.’

Quindi, tecnicamente, la generalizzazione e l’astrazione dovrebbero produrre testi innovativi e nuovi.

La duplicazione dei dati potrebbe essere il problema

Il documento teorizza che le citazioni lunghe e testuali prodotte dai sistemi di generazione di linguaggio naturale (NLG) potrebbero essere ‘incorporate’ intere nel modello di AI perché il testo di origine è ripetuto più volte in set di dati che non sono stati adeguatamente de-duplicati.

Sebbene un altro progetto di ricerca abbia scoperto che la duplicazione completa del testo può verificarsi anche se il testo di origine appare una sola volta nel set di dati, gli autori notano che il progetto ha architetture concettuali diverse da quelle comuni dei sistemi di generazione di contenuti basati su AI.

Gli autori osservano anche che cambiare il componente di decodifica nei sistemi di generazione di linguaggio potrebbe aumentare la novità, ma hanno scoperto che ciò avviene a scapito della qualità dell’output.

Ulteriori problemi sorgono poiché i set di dati che alimentano gli algoritmi di generazione di contenuti diventano sempre più grandi. Oltre ad aggravare le questioni relative all’accessibilità e alla sostenibilità dell’elaborazione pre-data, nonché alla garanzia della qualità e alla de-duplicazione dei dati, molti errori di base rimangono nei dati di origine, che vengono quindi propagati nel contenuto di output dell’AI.

Gli autori notano*:

‘I recenti aumenti delle dimensioni dei set di addestramento rendono particolarmente critico verificare la novità perché la portata di questi set di addestramento può rompere le nostre intuizioni su ciò che può essere considerato naturale. Ad esempio, alcuni lavori notevoli nel linguaggio acquisizione si basano sull’ipotesi che le forme regolari del passato di verbi irregolari (ad esempio, becomed, teached) non appaiono nell’esperienza di un apprendente, quindi se un apprendente produce tali parole, devono essere nuove per l’apprendente.

‘Tuttavia, si scopre che, per tutti i 92 verbi irregolari di base in inglese, la forma regolare errata appare nel set di addestramento di GPT-2.’

È necessaria una maggiore cura nella curazione dei dati

Il documento sostiene che è necessaria una maggiore attenzione alla novità nella formulazione dei sistemi di linguaggio generativo, con un particolare enfasi sull’assicurarsi che la parte ‘ritenuta’ del set di dati (la parte del set di dati che è stata messa da parte per testare come il modello finale ha valutato il corpo principale dei dati addestrati) sia adatta al compito.

‘Nell’apprendimento automatico, è fondamentale valutare i modelli su un set di test ritenuto. A causa della natura aperta della generazione di testo, il testo generato da un modello potrebbe essere copiato dal set di addestramento, nel qual caso non è ritenuto—quindi utilizzare quei dati per valutare il modello (ad esempio, per coerenza o grammaticalità) non è valido.’

Gli autori sostengono anche che è necessaria una maggiore cura nella produzione di modelli linguistici a causa dell’effetto Eliza, una sindrome identificata nel 1966 che identificava “la suscettibilità delle persone a leggere molto più comprensione di quanto sia giustificato in stringhe di simboli—specialmente parole—messe insieme da computer”.

* La mia conversione delle citazioni in linea in collegamenti ipertestuali

Martin Anderson

Scrittore su apprendimento automatico, specialista di dominio nella sintesi di immagini umane. Ex capo della ricerca contenuti presso Metaphysic.ai.

Unite.AI

Modelli di scrittura generativa basati su AI spesso ‘copia e incolla’ i dati di origine

RAVEN

Novità

La duplicazione dei dati potrebbe essere il problema

È necessaria una maggiore cura nella curazione dei dati

You may like