Intelligenza artificiale
Superare le Allucinazioni LLM Utilizzando la Generazione Augmentata di Recupero (RAG)
I Modelli Linguistici Ampi (LLM) stanno rivoluzionando il modo in cui elaboriamo e generiamo il linguaggio, ma sono imperfetti. Come gli esseri umani possono vedere forme nelle nuvole o volti sulla luna, anche gli LLM possono “allucinare”, creando informazioni che non sono accurate. Questo fenomeno, noto come allucinazioni LLM, rappresenta una preoccupazione crescente poiché l’uso degli LLM si espande.
Gli errori possono confondere gli utenti e, in alcuni casi, possono anche portare a problemi legali per le aziende. Ad esempio, nel 2023, un veterano dell’aeronautica Jeffery Battle (noto come The Aerospace Professor) ha presentato una denuncia contro Microsoft quando ha scoperto che il motore di ricerca Bing di Microsoft, alimentato da ChatGPT, a volte fornisce informazioni inaccurate e dannose sulla sua ricerca di nome. Il motore di ricerca confonde lui con un criminale condannato di nome Jeffery Leon Battle.
Per affrontare le allucinazioni, la Generazione Augmentata di Recupero (RAG) è emersa come una soluzione promettente. Integra la conoscenza da fonti di dati esterne per migliorare l’accuratezza e l’affidabilità degli LLM. Analizziamo più da vicino come la RAG rende gli LLM più precisi e affidabili. Discuteremo anche se la RAG possa effettivamente contrastare il problema delle allucinazioni LLM.
Comprendere le Allucinazioni LLM: Cause e Esempi
Gli LLM, inclusi modelli rinomati come ChatGPT, ChatGLM e Claude, sono addestrati su ampi set di dati testuali, ma non sono immuni a produrre output non corretti, un fenomeno chiamato “allucinazioni”. Le allucinazioni si verificano perché gli LLM sono addestrati a creare risposte significative in base alle regole linguistiche sottostanti, indipendentemente dalla loro accuratezza fattuale.
Uno studio di Tidio ha scoperto che mentre il 72% degli utenti ritiene che gli LLM siano affidabili, il 75% ha ricevuto informazioni errate dall’AI almeno una volta. Anche i modelli LLM più promettenti come GPT-3.5 e GPT-4 possono a volte produrre contenuti inaccurati o insensati.
Ecco una breve panoramica dei tipi comuni di allucinazioni LLM:
Tipi Comuni di Allucinazioni AI:
- Conflazione delle Fonti: Si verifica quando un modello combina dettagli da varie fonti, portando a contraddizioni o addirittura fonti inventate.
- Errori Fattuali: Gli LLM possono generare contenuti con una base fattuale inaccurata, soprattutto considerando le inesattezze intrinseche di Internet
- Informazioni Insensate: Gli LLM prevedono la parola successiva in base alla probabilità. Ciò può portare a testi grammaticalmente corretti ma privi di senso, ingannando gli utenti sull’autorità del contenuto.
L’anno scorso, due avvocati hanno affrontato possibili sanzioni per aver citato sei casi inesistenti nei loro documenti legali, ingannati dalle informazioni generate da ChatGPT. Questo esempio sottolinea l’importanza di approcciare il contenuto generato dagli LLM con un occhio critico, sottolineando la necessità di verifica per garantire l’affidabilità. Sebbene la sua capacità creativa sia utile per applicazioni come la narrazione, pone sfide per compiti che richiedono una rigorosa aderenza ai fatti, come la conduzione di ricerche accademiche, la stesura di analisi mediche e finanziarie e la fornitura di consulenza legale.
Esplorare la Soluzione per le Allucinazioni LLM: Come Funziona la Generazione Augmentata di Recupero (RAG)
Nel 2020, i ricercatori degli LLM hanno introdotto una tecnica chiamata Generazione Augmentata di Recupero (RAG) per mitigare le allucinazioni LLM integrando una fonte di dati esterna. A differenza degli LLM tradizionali che si affidano esclusivamente alle loro conoscenze pre-addestrate, i modelli LLM basati su RAG generano risposte fattualmente accurate recuperando dinamicamente informazioni rilevanti da un database esterno prima di rispondere a domande o generare testo.
Analisi del Processo RAG:

Passaggi del Processo RAG: Fonte
Passo 1: Recupero
Il sistema cerca una specifica base di conoscenza per informazioni relative alla query dell’utente. Ad esempio, se qualcuno chiede del vincitore dell’ultima Coppa del Mondo di calcio, cerca le informazioni più rilevanti sul calcio.
Passo 2: Aumento
La query originale viene quindi arricchita con le informazioni trovate. Utilizzando l’esempio del calcio, la query “Chi ha vinto la Coppa del Mondo di calcio?” viene aggiornata con dettagli specifici come “L’Argentina ha vinto la Coppa del Mondo di calcio.”
Passo 3: Generazione
Con la query arricchita, l’LLM genera una risposta dettagliata e accurata. Nel nostro caso, creerebbe una risposta basata sulle informazioni aumentate sull’Argentina che ha vinto la Coppa del Mondo.
Questo metodo aiuta a ridurre le inesattezze e garantisce che le risposte degli LLM siano più affidabili e basate su dati accurati.
Vantaggi e Svantaggi della RAG nella Riduzione delle Allucinazioni
La RAG ha mostrato promesse nella riduzione delle allucinazioni correggendo il processo di generazione. Questo meccanismo consente ai modelli RAG di fornire informazioni più accurate, aggiornate e contestualmente rilevanti.
Certamente, discutere la Generazione Augmentata di Recupero (RAG) in un senso più generale consente una comprensione più ampia dei suoi vantaggi e limitazioni attraverso varie implementazioni.
Vantaggi della RAG:
- Migliore Ricerca delle Informazioni: La RAG trova rapidamente informazioni accurate da grandi fonti di dati.
- Contenuto Migliorato: Crea contenuti chiari e ben abbinati a ciò di cui gli utenti hanno bisogno.
- Uso Flessibile: Gli utenti possono adattare la RAG alle loro esigenze specifiche, come utilizzare fonti di dati proprietarie, aumentando l’efficacia.
Sfide della RAG:
- Richiede Dati Specifici: Comprendere accuratamente il contesto della query per fornire informazioni rilevanti e precise può essere difficile.
- Scalabilità: Estendere il modello per gestire grandi set di dati e query mantenendo le prestazioni è difficile.
- Aggiornamento Continuo: Aggiornare automaticamente il set di conoscenze con le informazioni più recenti è risorse-intensivo.
Esplorare Alternative alla RAG
Oltre alla RAG, ci sono alcuni altri metodi promettenti che consentono ai ricercatori degli LLM di ridurre le allucinazioni:
- G-EVAL: Verifica incrociata dell’accuratezza del contenuto generato con un set di dati affidabile, migliorando l’affidabilità.
- SelfCheckGPT: Controlla e corregge automaticamente i propri errori per mantenere le uscite accurate e coerenti.
- Progettazione della Promessa: Aiuta gli utenti a progettare promesse di input precise per guidare i modelli verso risposte accurate e rilevanti.
- Regolazione Fine: Regola il modello su set di dati specifici del compito per migliorare le prestazioni specifiche del dominio.
- LoRA (Adattamento di Basso Rango): Questo metodo modifica una piccola parte dei parametri del modello per l’adattamento specifico del compito, aumentando l’efficienza.
L’esplorazione della RAG e delle sue alternative sottolinea l’approccio dinamico e multifacético per migliorare l’accuratezza e l’affidabilità degli LLM. Mentre procediamo, l’innovazione continua in tecnologie come la RAG è essenziale per affrontare le sfide intrinseche delle allucinazioni LLM.
Per rimanere aggiornati con gli ultimi sviluppi nell’AI e nell’apprendimento automatico, inclusi analisi approfondite e notizie, visitate unite.ai.












