mozzicone Prevenire le "allucinazioni" in GPT-3 e altri modelli linguistici complessi - Unite.AI
Seguici sui social

Intelligenza Artificiale

Prevenire "allucinazioni" in GPT-3 e altri modelli linguistici complessi

mm
aggiornato on

Una caratteristica distintiva delle "notizie false" è che spesso presentano informazioni false in un contesto di informazioni effettivamente corrette, con i dati falsi che acquisiscono autorità percepita da una sorta di osmosi letteraria - una preoccupante dimostrazione del potere delle mezze verità.

Anche i sofisticati modelli di elaborazione generativa del linguaggio naturale (NLP) come GPT-3 hanno la tendenza a farlo 'allucinato' questo tipo di dati ingannevoli. In parte, ciò è dovuto al fatto che i modelli linguistici richiedono la capacità di riformulare e riassumere tratti di testo lunghi e spesso labirintici, senza alcun vincolo architettonico in grado di definire, incapsulare e "sigillare" eventi e fatti in modo che siano protetti dal processo di semantica ricostruzione.

Pertanto i fatti non sono sacri per un modello di PNL; possono facilmente finire per essere trattati nel contesto dei "mattoncini Lego semantici", in particolare dove la grammatica complessa o il materiale sorgente arcano rendono difficile separare entità discrete dalla struttura linguistica.

Un'osservazione del modo in cui il materiale sorgente formulato in modo tortuoso può confondere modelli linguistici complessi come GPT-3. Fonte: Generazione di parafrasi utilizzando il Deep Reinforcement Learning

Un'osservazione del modo in cui il materiale sorgente formulato in modo tortuoso può confondere modelli linguistici complessi come GPT-3. Fonte: Generazione di parafrasi utilizzando il Deep Reinforcement Learning

Questo problema si estende dall’apprendimento automatico basato sul testo alla ricerca sulla visione artificiale, in particolare nei settori che utilizzano la discriminazione semantica per identificare o descrivere oggetti.

L'allucinazione e la reinterpretazione "cosmetica" imprecisa influenzano anche la ricerca sulla visione artificiale.

L'allucinazione e la reinterpretazione "cosmetica" imprecisa influenzano anche la ricerca sulla visione artificiale.

Nel caso di GPT-3, il modello può diventare frustrato con ripetute domande su un argomento che ha già affrontato nel miglior modo possibile. Nella migliore delle ipotesi, ammetterà la sconfitta:

Un mio recente esperimento con il motore Davinci di base in GPT-3. Il modello ottiene la risposta giusta al primo tentativo, ma è contrariato dal fatto che gli venga posta la domanda una seconda volta. Poiché conserva una memoria a breve termine della risposta precedente e tratta la domanda ripetuta come un rifiuto di quella risposta, ammette la sconfitta. Fonte: https://www.scalr.ai/post/business-applications-for-gpt-3

Un mio recente esperimento con il motore Davinci di base in GPT-3. Il modello ottiene la risposta giusta al primo tentativo, ma è contrariato dal fatto che gli venga posta la domanda una seconda volta. Poiché conserva una memoria a breve termine della risposta precedente e tratta la domanda ripetuta come un rifiuto di quella risposta, ammette la sconfitta. Fonte: https://www.scalr.ai/post/business-applications-for-gpt-3

DaVinci e DaVinci Instruct (Beta) fanno meglio in questo senso rispetto ad altri modelli GPT-3 disponibili tramite l'API. Qui, il modello Curie dà la risposta sbagliata, mentre il modello Babbage si espande con sicurezza su una risposta altrettanto sbagliata:

Cose che Einstein non ha mai detto

Quando sollecita il motore GPT-3 DaVinci Instruct (che attualmente sembra essere il più capace) per la famosa citazione di Einstein "Dio non gioca a dadi con l'universo", DaVinci instruct non riesce a trovare la citazione e inventa una non citazione, continuando allucinare altre tre citazioni relativamente plausibili e completamente inesistenti (di Einstein o di chiunque altro) in risposta a domande simili:

GPT-3 produce quattro citazioni plausibili di Einstein, nessuna delle quali produce alcun risultato in una ricerca Internet full-text, anche se alcune innescano altre citazioni (reali) di Einstein sull'argomento "immaginazione".

Se GPT-3 avesse costantemente sbagliato a citare, sarebbe più facile scartare queste allucinazioni a livello di programmazione. Tuttavia, più una citazione è diffusa e famosa, più è probabile che GPT-3 risponda correttamente alla citazione:

GPT-3 apparentemente trova le virgolette corrette quando sono ben rappresentate nei dati che contribuiscono.

GPT-3 apparentemente trova le virgolette corrette quando sono ben rappresentate nei dati che contribuiscono.

Un secondo problema può emergere quando i dati della cronologia delle sessioni di GPT-3 si trasformano in una nuova domanda:

Einstein probabilmente si scandalizzerebbe se gli attribuissero questo detto. La citazione sembra essere un'allucinazione senza senso di un vero Winston Churchill aforisma. La domanda precedente nella sessione GPT-3 relativa a Churchill (non Einstein) e GPT-3 sembra aver utilizzato erroneamente questo token di sessione per fornire la risposta.

Affrontare l'allucinazione economicamente

L'allucinazione è un notevole ostacolo all'adozione di sofisticati modelli di PNL come strumenti di ricerca, tanto più che l'output di tali motori è altamente astratto dal materiale di partenza che lo ha formato, così che diventa problematico stabilire la veridicità di citazioni e fatti.

Pertanto, un'attuale sfida generale della ricerca sulla PNL è stabilire un mezzo per identificare i testi allucinati senza la necessità di immaginare modelli di PNL completamente nuovi che incorporino, definiscano e autentichino i fatti come entità discrete (un obiettivo separato a lungo termine in un numero più ampio di computer settori di ricerca).

Identificazione e generazione di contenuti allucinati

Una nuova collaborazione tra la Carnegie Mellon University e Facebook AI Research offre un nuovo approccio al problema delle allucinazioni, formulando un metodo per identificare l'output allucinatorio e utilizzando testi allucinatori sintetici per creare un set di dati che può essere utilizzato come base per filtri e meccanismi futuri che potrebbero eventualmente diventare una parte fondamentale delle architetture NLP.

Fonte: https://arxiv.org/pdf/2011.02593.pdf

Fonte: https://arxiv.org/pdf/2011.02593.pdf

Nell'immagine sopra, il materiale sorgente è stato segmentato in base alla parola, con l'etichetta "0" assegnata alle parole corrette e l'etichetta "1" assegnata alle parole allucinate. Di seguito vediamo un esempio di output allucinato correlato alle informazioni di input, ma arricchito con dati non autentici.

Il sistema utilizza un codificatore automatico di denoising pre-addestrato che è in grado di mappare una stringa allucinata al testo originale da cui è stata prodotta la versione corrotta (simile ai miei esempi sopra, in cui le ricerche su Internet hanno rivelato la provenienza di virgolette false, ma con un codice programmatico e metodologia semantica automatizzata). In particolare, Facebook BART il modello di autoencoder viene utilizzato per produrre le frasi corrotte.

Assegnazione etichetta.

Assegnazione etichetta.

Il processo di mappatura dell'allucinazione alla fonte, che non è possibile nella corsa comune dei modelli di PNL di alto livello, consente di mappare la "distanza di modifica" e facilita un approccio algoritmico all'identificazione del contenuto allucinato.

I ricercatori hanno scoperto che il sistema è persino in grado di generalizzare bene quando non ha accesso al materiale di riferimento disponibile durante la formazione, il che suggerisce che il modello concettuale è valido e ampiamente replicabile.

Affrontare il problema dell’overfitting

Per evitare l'overfitting e arrivare a un'architettura ampiamente distribuibile, i ricercatori hanno eliminato casualmente i token dal processo e hanno utilizzato anche la parafrasi e altre funzioni di rumore.

Anche la traduzione automatica (MT) fa parte di questo processo di offuscamento, poiché è probabile che la traduzione del testo in più lingue conservi il significato in modo robusto e prevenga ulteriormente l'adattamento eccessivo. Pertanto le allucinazioni sono state tradotte e identificate per il progetto da parlanti bilingue in uno strato di annotazione manuale.

L'iniziativa ha ottenuto nuovi migliori risultati in una serie di test di settore standard ed è la prima a ottenere risultati accettabili utilizzando dati superiori a 10 milioni di token.

Il codice del progetto, intitolato Rilevamento di contenuti allucinati nella generazione di sequenze neurali condizionali, È stata rilasciato su GitHube consente agli utenti di generare i propri dati sintetici con BART da qualsiasi corpus di testo. È inoltre prevista la generazione successiva di modelli di rilevamento delle allucinazioni.