Intelligenza artificiale
Cosa Sono Le Allucinazioni LLM? Cause, Preoccupazioni Etiche & Prevenzione

I modelli linguistici di grandi dimensioni (LLM) sono sistemi di intelligenza artificiale in grado di analizzare e generare testi simili a quelli umani. Ma hanno un problema – gli LLM allucinano, cioè inventano cose. Le allucinazioni degli LLM hanno reso preoccupati i ricercatori per i progressi in questo campo perché se i ricercatori non possono controllare il risultato dei modelli, allora non possono costruire sistemi critici per servire l’umanità. Ne parleremo più tardi.
In generale, gli LLM utilizzano grandi quantità di dati di training e algoritmi di apprendimento complessi per generare output realistici. In alcuni casi, viene utilizzato l’apprendimento in contesto per addestrare questi modelli utilizzando solo pochi esempi. Gli LLM stanno diventando sempre più popolari in vari settori di applicazione, che vanno dalla traduzione automatica, all’analisi del sentiment, all’assistenza virtuale AI, all’annotazione delle immagini, all’elaborazione del linguaggio naturale, ecc.
Nonostante la natura all’avanguardia degli LLM, essi sono ancora soggetti a pregiudizi, errori e allucinazioni. Yann LeCun, attuale Chief AI Scientist di Meta, ha recentemente menzionato il difetto centrale degli LLM che causa allucinazioni: “I grandi modelli linguistici non hanno idea della realtà sottostante che il linguaggio descrive. Quei sistemi generano testi che sembrano corretti, grammaticalmente e semanticamente, ma non hanno realmente alcun obiettivo diverso dal soddisfare la coerenza statistica con il prompt”.
Allucinazioni negli LLM

Immagine di Gerd Altmann da Pixabay
Le allucinazioni si riferiscono al modello che genera output che sono sintatticamente e semanticamente corretti ma sono disconnessi dalla realtà e basati su false ipotesi. L’allucinazione è una delle principali preoccupazioni etiche degli LLM e può avere conseguenze dannose poiché gli utenti senza adeguata conoscenza del dominio iniziano a fare affidamento eccessivo su questi modelli linguistici sempre più convincenti.
Un certo grado di allucinazione è inevitabile in tutti gli LLM autoregressivi. Ad esempio, un modello può attribuire una citazione contraffatta a una celebrità che non è mai stata detta. Possono affermare qualcosa su un particolare argomento che è factualmente scorretto o citare fonti inesistenti in articoli di ricerca, diffondendo così informazioni errate.
Tuttavia, far sì che i modelli AI allucinino non ha sempre effetti negativi. Ad esempio, uno studio recente suggerisce che gli scienziati stanno scoprendo ‘nuove proteine con una gamma illimitata di proprietà’ attraverso LLM allucinati.
Cosa Causa Le Allucinazioni Negli LLM?
Gli LLM possono allucinare a causa di vari fattori, che vanno da errori di sovrapprendimento e di codifica e decodifica a pregiudizi di training.
Sovrapprendimento

Immagine di janjf93 da Pixabay
Il sovrapprendimento è un problema in cui un modello AI si adatta troppo bene ai dati di training. Tuttavia, non può rappresentare appieno la gamma di input che potrebbe incontrare, cioè non riesce a generalizzare il suo potere predittivo a nuovi, non visti dati. Il sovrapprendimento può portare al modello che produce contenuti allucinati.
Errori Di Codifica E Decodifica

Immagine di geralt da Pixabay
Se ci sono errori nella codifica e decodifica del testo e delle sue rappresentazioni successive, ciò può anche causare il modello a generare output nonsensicali ed errati.
Pregiudizi Di Training

Immagine di Quince Creative da Pixabay
Un altro fattore è la presenza di determinati pregiudizi nei dati di training, che possono causare il modello a fornire risultati che rappresentano quei pregiudizi piuttosto che la natura reale dei dati. Ciò è simile alla mancanza di diversità nei dati di training, che limita la capacità del modello di generalizzare a nuovi dati.
La struttura complessa degli LLM rende piuttosto difficile per i ricercatori e gli operatori identificare, interpretare e correggere le cause sottostanti delle allucinazioni.
Preoccupazioni Etiche Delle Allucinazioni Negli LLM
Gli LLM possono perpetuare e amplificare pregiudizi dannosi attraverso allucinazioni e possono, a loro volta, avere conseguenze negative sugli utenti e avere effetti sociali dannosi. Alcune di queste preoccupazioni etiche più importanti sono elencate di seguito:
Contenuto Discriminante E Tossico

Immagine di ar130405 da Pixabay
Poiché i dati di training degli LLM sono spesso pieni di stereotipi socioculturali a causa dei pregiudizi inerenti e della mancanza di diversità. Gli LLM possono, quindi, produrre e rafforzare queste idee dannose contro gruppi svantaggiati nella società.
Possono generare questo contenuto discriminatorio e odioso in base a razza, genere, religione, etnia, ecc.
Questioni Di Privacy

Immagine di JanBaby da Pixabay
Gli LLM sono addestrati su un enorme corpus di training che spesso include informazioni personali di individui. Ci sono stati casi in cui tali modelli hanno violato la privacy delle persone. Possono trapelare informazioni specifiche come numeri di sicurezza sociale, indirizzi di casa, numeri di telefono cellulare e dettagli medici.
Disinformazione E Mancanza Di Informazione

Immagine di geralt da Pixabay
I modelli linguistici possono produrre contenuti simili a quelli umani che sembrano accurati ma sono in realtà falsi e non supportati da prove empiriche. Ciò può essere accidentale, portando a disinformazione, o può avere un intento malizioso per diffondere disinformazione. Se ciò non viene controllato, può creare tendenze sociali, culturali, economiche e politiche avverse.
Prevenzione Delle Allucinazioni Negli LLM

Immagine di athree23 da Pixabay
I ricercatori e gli operatori stanno adottando vari approcci per affrontare il problema delle allucinazioni negli LLM. Questi includono il miglioramento della diversità dei dati di training, l’eliminazione dei pregiudizi inerenti, l’utilizzo di tecniche di regolarizzazione migliori e l’impiego di addestramento avversario e apprendimento per rinforzo, tra gli altri:
- Lo sviluppo di tecniche di regolarizzazione migliori è al centro dell’affrontare le allucinazioni. Aiutano a prevenire il sovrapprendimento e altri problemi che causano allucinazioni.
- La riduzione dei dati può ridurre la frequenza delle allucinazioni, come evidenziato da uno studio di ricerca. La riduzione dei dati coinvolge l’aumento del set di training aggiungendo un token casuale in qualsiasi punto della frase. Raddoppia le dimensioni del set di training e causa una diminuzione della frequenza delle allucinazioni.
- OpenAI e Google’s DeepMind hanno sviluppato una tecnica chiamata apprendimento per rinforzo con feedback umano (RLHF) per affrontare il problema delle allucinazioni di ChatGPT. Coinvolge un valutatore umano che esamina frequentemente le risposte del modello e seleziona le più adeguate per i prompt dell’utente. Questo feedback viene quindi utilizzato per regolare il comportamento del modello. Ilya Sutskever, chief scientist di OpenAI, ha recentemente menzionato che questo approccio può potenzialmente risolvere le allucinazioni in ChatGPT: “Spero che migliorando semplicemente questo passaggio successivo di apprendimento per rinforzo con feedback umano, possiamo insegnargli a non allucinare”.
- L’identificazione del contenuto allucinato per utilizzarlo come esempio per future sessioni di training è anche un metodo utilizzato per affrontare le allucinazioni. Una tecnica innovativa in questo senso rileva le allucinazioni a livello di token e prevede se ogni token nell’output è allucinato. Include anche un metodo per l’apprendimento non supervisionato dei rilevatori di allucinazioni.
In sintesi, le allucinazioni degli LLM sono una preoccupazione crescente. E nonostante gli sforzi, molto lavoro deve ancora essere fatto per affrontare il problema. La complessità di questi modelli rende generalmente difficile identificare e rettificare correttamente le cause sottostanti delle allucinazioni.
Tuttavia, con la continua ricerca e sviluppo, è possibile mitigare le allucinazioni negli LLM e ridurre le loro conseguenze etiche.
Se desideri saperne di più sugli LLM e sulle tecniche preventive in fase di sviluppo per rettificare le allucinazioni degli LLM, visita unite.ai per ampliare le tue conoscenze.













