Intelligenza artificiale

Superare le allucinazioni LLM utilizzando la generazione aumentata di recupero (RAG)

Published March 5, 2024

Updated April 4, 2026

Haziqa Sajid

I Large Language Model (LLM) stanno rivoluzionando il modo in cui elaboriamo e generiamo il linguaggio, ma sono imperfetti. Proprio come gli esseri umani possono vedere forme nelle nuvole o volti sulla luna, anche gli LLM possono “allucinare”, creando informazioni che non sono accurate. Questo fenomeno, noto come allucinazioni LLM, rappresenta una preoccupazione crescente poiché l’uso degli LLM si espande.

Gli errori possono confondere gli utenti e, in alcuni casi, possono anche portare a problemi legali per le aziende. Ad esempio, nel 2023, un veterano dell’Aeronautica Jeffery Battle (noto come The Aerospace Professor) ha intentato una causa contro Microsoft quando ha scoperto che il motore di ricerca Bing di Microsoft, alimentato da ChatGPT, a volte fornisce informazioni dannose e non accurate sul suo nome di ricerca. Il motore di ricerca confonde lui con un criminale condannato di nome Jeffery Leon Battle.

Per affrontare le allucinazioni, la generazione aumentata di recupero (RAG) è emersa come una soluzione promettente. Incorpora conoscenze da database esterni per migliorare l’accuratezza e l’affidabilità degli LLM. Vediamo più da vicino come RAG rende gli LLM più precisi e affidabili. Discuteremo anche se RAG possa efficacemente contrastare il problema delle allucinazioni LLM.

Comprendere le allucinazioni LLM: cause ed esempi

Gli LLM, compresi modelli rinomati come ChatGPT, ChatGLM e Claude, sono addestrati su ampi set di dati testuali, ma non sono immuni a produrre output non accurati, un fenomeno chiamato “allucinazioni”. Le allucinazioni si verificano perché gli LLM sono addestrati a creare risposte significative in base alle regole linguistiche sottostanti, indipendentemente dalla loro accuratezza fattuale.

Uno studio di Tidio ha scoperto che mentre il 72% degli utenti ritiene che gli LLM siano affidabili, il 75% ha ricevuto informazioni errate dall’AI almeno una volta. Anche i modelli LLM più promettenti come GPT-3.5 e GPT-4 possono a volte produrre contenuti inaccurati o insensati.