Intelligenza artificiale

Come Dati Sintetici Impattano sulle Allucinazioni dell’AI?

Published February 8, 2025

Updated April 3, 2026

Zac Amos

Sebbene i dati sintetici siano uno strumento potente, possono ridurre le allucinazioni dell’intelligenza artificiale solo in circostanze specifiche. In quasi tutti gli altri casi, le amplificheranno. Perché è così? Cosa significa questo fenomeno per coloro che hanno investito in esso?

COME I DATI SINTETICI SI DIFFERENZIANO DAI DATI REALI?

I dati sintetici sono informazioni generate dall’AI. Invece di essere raccolti da eventi o osservazioni del mondo reale, sono prodotti artificialmente. Tuttavia, assomigliano all’originale abbastanza da produrre output precisi e rilevanti. Questo è l’obiettivo, comunque.

Per creare un set di dati artificiali, gli ingegneri dell’AI addestrano un algoritmo generativo su un database relazionale reale. Quando richiesto, produce un secondo set che si specchia da vicino il primo, ma non contiene informazioni genuine. Mentre le tendenze generali e le proprietà matematiche rimangono intatte, c’è abbastanza rumore per mascherare le relazioni originali.

Un set di dati generato dall’AI va oltre la deidentificazione, replicando la logica sottostante delle relazioni tra i campi invece di sostituire semplicemente i campi con alternative equivalenti. Poiché non contiene dettagli identificativi, le aziende possono utilizzarlo per evitare regolamenti sulla privacy e copyright. Ancor più importante, possono condividerlo o distribuirlo liberamente senza timore di violazione.

Tuttavia, le informazioni false vengono utilizzate più comunemente per il supplemento. Le aziende possono utilizzarle per arricchire o espandere le dimensioni dei campioni che sono troppo piccoli, rendendoli abbastanza grandi per addestrare sistemi di intelligenza artificiale in modo efficace.

I DATI SINTETICI RIDUCONO LE ALLUCINAZIONI DELL’AI?

A volte, gli algoritmi fanno riferimento a eventi inesistenti o forniscono suggerimenti logicamente impossibili. Queste allucinazioni sono spesso insensate, fuorvianti o scorrette. Ad esempio, un modello linguistico di grandi dimensioni potrebbe scrivere un articolo su come addomesticare i leoni o diventare un medico all’età di 6 anni. Tuttavia, non sono tutte così estreme, il che può rendere difficile riconoscerle.

Se curati appropriatamente, i dati artificiali possono mitigare questi incidenti. Un database di addestramento autentico e rilevante è la base per qualsiasi modello, quindi è logico che più dettagli si hanno, più preciso sarà l’output del modello. Un set di dati supplementari consente la scalabilità, anche per applicazioni di nicchia con informazioni pubbliche limitate.

La debiasing è un altro modo in cui un database sintetico può ridurre le allucinazioni dell’AI. Secondo la MIT Sloan School of Management, può aiutare ad affrontare i pregiudizi perché non è limitato alle dimensioni del campione originale. I professionisti possono utilizzare dettagli realistici per colmare le lacune in cui le sottopopolazioni selezionate sono sottorappresentate o sovrarappresentate.

COME I DATI ARTIFICIALI PEGGIORANO LE ALLUCINAZIONI

Poiché gli algoritmi intelligenti non possono ragionare o contestualizzare le informazioni, sono soggetti a allucinazioni. I modelli generativi — in particolare i modelli linguistici di grandi dimensioni pre-addestrati — sono particolarmente vulnerabili. In alcuni modi, i fatti artificiali aggravano il problema.

AMPLIFICAZIONE DEL PREGIUDIZIO

Come gli esseri umani, l’AI può apprendere e riprodurre pregiudizi. Se un database artificiale sovrastima alcuni gruppi mentre sottorappresenta altri — il che è preoccupantemente facile da fare accidentalmente — la sua logica decisionale sarà distorta, influenzando negativamente la precisione dell’output.

Un problema simile può sorgere quando le aziende utilizzano dati falsi per eliminare pregiudizi del mondo reale, poiché potrebbe non riflettere più la realtà. Ad esempio, poiché oltre il 99% dei casi di cancro al seno si verificano nelle donne, utilizzare informazioni supplementari per bilanciare la rappresentanza potrebbe distorcere le diagnosi.

ALLUCINAZIONI INTERSEZIONALI

L’intersezionalità è una cornice sociologica che descrive come le demografie come età, genere, razza, occupazione e classe si intersecano. Analizza come le identità sociali sovrapposte dei gruppi risultino in combinazioni uniche di discriminazione e privilegio.

Quando un modello generativo viene chiesto di produrre dettagli artificiali in base a ciò su cui è stato addestrato, potrebbe generare combinazioni che non esistevano nell’originale o sono logicamente impossibili.

Ericka Johnson, professoressa di genere e società all’Università di Linköping, ha lavorato con uno scienziato di apprendimento automatico per dimostrare questo fenomeno. Hanno utilizzato una rete avversariale generativa per creare versioni sintetiche dei dati del censimento degli Stati Uniti del 1990.

Subito dopo, hanno notato un problema lampante. La versione artificiale aveva categorie intitolate “moglie e single” e “mariti mai sposati”, entrambe delle quali erano allucinazioni intersezionali.

Senza una cura appropriata, il database di replica sarà sempre sovrarappresentato nelle sottopopolazioni dominanti nei set di dati, mentre sottorappresenta — o addirittura esclude — i gruppi sottorappresentati. I casi limite e gli outlier potrebbero essere ignorati completamente a favore delle tendenze dominanti.

COLLASSO DEL MODELLO

Un’eccessiva dipendenza da modelli e tendenze artificiali conduce al collasso del modello — dove le prestazioni di un algoritmo peggiorano drasticamente poiché diventa meno adattabile a osservazioni ed eventi del mondo reale.

Questo fenomeno è particolarmente evidente nell’AI generativa di prossima generazione. L’uso ripetuto di una versione artificiale per addestrarli si traduce in un ciclo autoalimentante. Uno studio ha scoperto che la loro qualità e richiamo diminuiscono progressivamente senza abbastanza cifre recenti e reali in ogni generazione.

SOVRAADATTAMENTO

Il sovraadattamento è una eccessiva dipendenza dai dati di addestramento. L’algoritmo funziona bene inizialmente, ma allucinerà quando presentato con nuovi punti di dati. Le informazioni sintetiche possono aggravare questo problema se non riflettono accuratamente la realtà.

LE IMPLICAZIONI DELL’USO CONTINUAZIONE DEI DATI SINTETICI

Il mercato dei dati sintetici è in pieno sviluppo. Le aziende di questo settore di nicchia hanno raccolto circa 328 milioni di dollari nel 2022, rispetto ai 53 milioni di dollari del 2020 — un aumento del 518% in soli 18 mesi. Vale la pena notare che si tratta solo di finanziamenti pubblicamente noti, il che significa che la cifra reale potrebbe essere ancora più alta. È sicuro dire che le aziende sono incredibilmente investite in questa soluzione.

Se le aziende continuano a utilizzare un database artificiale senza una cura e debiasing adeguate, le prestazioni del loro modello peggioreranno progressivamente, guastando i loro investimenti in AI. I risultati potrebbero essere più gravi, a seconda dell’applicazione. Ad esempio, nel settore sanitario, un aumento delle allucinazioni potrebbe portare a diagnosi errate o piani di trattamento inadeguati, portando a esiti dei pazienti pegiori.

LA SOLUZIONE NON CONSISTERÀ NEL RITORNARE AI DATI REALI

I sistemi di intelligenza artificiale necessitano di milioni, se non miliardi, di immagini, testi e video per l’addestramento, la maggior parte dei quali viene raccolta da siti web pubblici e compilata in enormi set di dati aperti. Purtroppo, gli algoritmi consumano queste informazioni più velocemente di quanto gli esseri umani possano generarle. Cosa succede quando imparano tutto?

I leader aziendali sono preoccupati per il raggiungimento del muro dei dati — il punto in cui tutte le informazioni pubbliche su Internet sono state esaurite. Potrebbe avvicinarsi più velocemente di quanto pensino.

Anche se la quantità di testo semplice nella pagina web media del common crawl e il numero di utenti di Internet stanno crescendo del 2% al 4% all’anno, gli algoritmi stanno finendo i dati di alta qualità. Solo il 10% al 40% può essere utilizzato per l’addestramento senza compromettere le prestazioni. Se le tendenze continuano, le scorte di informazioni pubbliche generate dagli esseri umani potrebbero esaurirsi entro il 2026.

È probabile che il settore dell’AI raggiunga il muro dei dati anche prima. Il boom dell’AI generativa degli ultimi anni ha aumentato le tensioni sulla proprietà e il plagio delle informazioni. Più proprietari di siti web stanno utilizzando il Protocollo di esclusione dei robot — uno standard che utilizza un file robots.txt per bloccare i web crawler — o rendendo chiaro che il loro sito è off-limits.

Uno studio del 2024 pubblicato da un gruppo di ricerca guidato dal MIT ha rivelato che le restrizioni del set di dati Colossal Cleaned Common Crawl (C4) — un enorme set di dati web crawl — sono in aumento. Oltre il 28% delle fonti più attive e critiche in C4 erano completamente limitate. Inoltre, il 45% di C4 è ora designato off-limits dalle condizioni di servizio.

Se le aziende rispettano queste restrizioni, la freschezza, la rilevanza e l’accuratezza dei fatti del mondo reale diminuiranno, costringendole a fare affidamento su database artificiali. Potrebbero non avere molta scelta se i tribunali decidono che qualsiasi alternativa costituisce una violazione del copyright.

IL FUTURO DEI DATI SINTETICI E DELLE ALLUCINAZIONI DELL’AI

Mentre le leggi sul copyright si modernizzano e più proprietari di siti web nascondono il loro contenuto ai web crawler, la generazione di set di dati artificiali diventerà sempre più popolare. Le organizzazioni devono prepararsi ad affrontare la minaccia delle allucinazioni.

Related Topics:ai hallucination synthetic data

Zac Amos

Zac Amos è uno scrittore di tecnologia che si concentra sull'intelligenza artificiale. È anche il caporedattore delle funzionalità di ReHack, dove puoi leggere altro del suo lavoro.