Seguici sui social

In che modo i dati sintetici influenzano le allucinazioni dell'intelligenza artificiale?

Intelligenza Artificiale

In che modo i dati sintetici influenzano le allucinazioni dell'intelligenza artificiale?

mm

Sebbene i dati sintetici siano uno strumento potente, possono ridurre le allucinazioni dell'intelligenza artificiale solo in circostanze specifiche. In quasi tutti gli altri casi, le amplificano. Perché? Cosa significa questo fenomeno per coloro che vi hanno investito? 

In che cosa i dati sintetici differiscono dai dati reali?

I dati sintetici sono informazioni generate dall'IA. Invece di essere raccolti da eventi o osservazioni del mondo reale, vengono prodotti artificialmente. Tuttavia, assomigliano all'originale quel tanto che basta per produrre un output accurato e pertinente. Questa è l'idea, comunque.  

Per creare un set di dati artificiale, gli ingegneri di intelligenza artificiale addestrano un algoritmo generativo su un database relazionale reale. Quando richiesto, produce un secondo set che rispecchia da vicino il primo ma non contiene informazioni genuine. Mentre le tendenze generali e le proprietà matematiche rimangono intatte, c'è abbastanza rumore da mascherare le relazioni originali. 

Un set di dati generato dall'intelligenza artificiale va oltre la deidentificazione, replicando la logica sottostante delle relazioni tra i campi anziché semplicemente sostituire i campi con alternative equivalenti. Poiché non contiene dettagli identificativi, le aziende possono usarlo per aggirare le normative sulla privacy e sul copyright. Ancora più importante, possono condividerlo o distribuirlo liberamente senza timore di violazioni. 

Tuttavia, le informazioni false sono più comunemente utilizzate per l'integrazione. Le aziende possono utilizzarle per arricchire o espandere le dimensioni dei campioni che sono troppo piccole, rendendole abbastanza grandi da addestrare efficacemente i sistemi di intelligenza artificiale. 

I dati sintetici riducono al minimo le allucinazioni dell'intelligenza artificiale?

A volte, gli algoritmi fanno riferimento a eventi inesistenti o fanno suggerimenti logicamente impossibili. Queste allucinazioni sono spesso insensate, fuorvianti o scorrette. Ad esempio, un modello linguistico di grandi dimensioni potrebbe scrivere un articolo su come addomesticare i leoni o diventare un medico a 6 anni. Tuttavia, non sono tutti così estremi, il che può rendere difficile riconoscerli. 

Se opportunamente curati, i dati artificiali possono mitigare questi incidenti. Un database di training pertinente e autentico è la base di qualsiasi modello, quindi è logico che più dettagli ha qualcuno, più accurato sarà l'output del suo modello. Un set di dati supplementare consente la scalabilità, anche per applicazioni di nicchia con informazioni pubbliche limitate. 

Il debiasing è un altro modo in cui un database sintetico può minimizzare le allucinazioni dell'IA. Secondo la MIT Sloan School of Management, può aiutare ad affrontare i pregiudizi perché non è limitato alla dimensione del campione originale. I professionisti possono usare dettagli realistici per colmare le lacune in cui sottopopolazioni selezionate sono sotto o sovrarappresentate. 

Come i dati artificiali peggiorano le allucinazioni

Poiché gli algoritmi intelligenti non può ragionare o contestualizzare le informazioni, sono inclini alle allucinazioni. I modelli generativi, in particolare i grandi modelli linguistici preaddestrati, sono particolarmente vulnerabili. In un certo senso, i fatti artificiali aggravano il problema. 

Amplificazione del bias

Come gli esseri umani, l'IA può apprendere e riprodurre pregiudizi. Se un database artificiale sopravvaluta alcuni gruppi e ne sottorappresenta altri, il che è preoccupantemente facile da fare accidentalmente, la sua logica decisionale si distorcerà, influenzando negativamente l'accuratezza dell'output. 

Un problema simile può sorgere quando le aziende utilizzano dati falsi per eliminare pregiudizi del mondo reale, perché potrebbero non riflettere più la realtà. Ad esempio, poiché oltre il 99% dei tumori al seno si verificano nelle donne, l'uso di informazioni supplementari per bilanciare la rappresentazione potrebbe alterare le diagnosi.

Allucinazioni intersezionali

L'intersezionalità è un framework sociologico che descrive come si intersecano dati demografici come età, genere, razza, occupazione e classe. Analizza come le identità sociali sovrapposte dei gruppi determinino combinazioni uniche di discriminazione e privilegio.

Quando si chiede a un modello generativo di produrre dettagli artificiali basati su ciò su cui è stato addestrato, potrebbe generare combinazioni che non esistevano nell'originale o che sono logicamente impossibili.

Ericka Johnson, professoressa di genere e società alla Linköping University, ha lavorato con uno scienziato di apprendimento automatico per dimostrare questo fenomeno. Hanno utilizzato una rete avversaria generativa per creare versioni sintetiche dei dati del censimento degli Stati Uniti del 1990. 

Hanno notato subito un problema evidente. La versione artificiale aveva categorie intitolate "moglie e single" e "mariti mai sposati", entrambe allucinazioni intersezionali.

Senza una cura appropriata, il database replica sovrarappresenterà sempre le sottopopolazioni dominanti nei set di dati, mentre sottorappresenterà, o addirittura escluderà, i gruppi sottorappresentati. Casi limite e valori anomali possono essere ignorati completamente a favore delle tendenze dominanti. 

Crollo del modello 

Un eccessivo affidamento su modelli e tendenze artificiali porta al collasso del modello, ovvero le prestazioni di un algoritmo si deteriorano drasticamente poiché diventa meno adattabile alle osservazioni e agli eventi del mondo reale. 

Questo fenomeno è particolarmente evidente nell'IA generativa di prossima generazione. L'uso ripetuto di una versione artificiale per addestrarli si traduce in un ciclo autoconsumante. Uno studio ha scoperto che il loro calo della qualità e del richiamo progressivamente senza sufficienti dati recenti e reali in ogni generazione.

sovradattamento 

sovradattamento è un eccessivo affidamento sui dati di training. L'algoritmo funziona bene inizialmente, ma avrà allucinazioni quando gli vengono presentati nuovi punti dati. Le informazioni sintetiche possono aggravare questo problema se non riflettono accuratamente la realtà. 

Le implicazioni dell'uso continuato di dati sintetici

Il mercato dei dati sintetici è in forte espansione. Le aziende di questa nicchia di settore raccolto circa $ 328 milioni nel 2022, rispetto ai 53 milioni di $ del 2020, un aumento del 518% in soli 18 mesi. Vale la pena notare che si tratta esclusivamente di finanziamenti di pubblico dominio, il che significa che la cifra effettiva potrebbe essere persino più alta. È sicuro affermare che le aziende sono incredibilmente investite in questa soluzione. 

Se le aziende continuano a utilizzare un database artificiale senza un'adeguata curatela e debiasing, le prestazioni del loro modello diminuiranno progressivamente, inasprendo i loro investimenti in AI. I risultati potrebbero essere più gravi, a seconda dell'applicazione. Ad esempio, nell'assistenza sanitaria, un'ondata di allucinazioni potrebbe causare diagnosi errate o piani di trattamento inadeguati, con conseguenti esiti peggiori per i pazienti.

La soluzione non consisterà nel tornare ai dati reali

I sistemi di intelligenza artificiale hanno bisogno di milioni, se non miliardi, di immagini, testi e video per l'addestramento, molti dei quali vengono estratti da siti Web pubblici e compilati in enormi set di dati aperti. Sfortunatamente, gli algoritmi consumano queste informazioni più velocemente di quanto gli esseri umani possano generarle. Cosa succede quando imparano tutto?

I leader aziendali sono preoccupati di sbattere contro il muro dei dati, il punto in cui tutte le informazioni pubbliche su Internet sono state esaurite. Potrebbe avvicinarsi più velocemente di quanto pensino. 

Nonostante sia la quantità di testo in chiaro sulla pagina web di scansione comune media sia il numero di utenti di Internet stanno crescendo dal 2% al 4% annualmente, gli algoritmi stanno esaurendo i dati di alta qualità. Solo il 10%-40% può essere utilizzato per l'addestramento senza compromettere le prestazioni. Se le tendenze continuano, lo stock di informazioni pubbliche generate dall'uomo potrebbe esaurirsi entro il 2026.

Con ogni probabilità, il settore dell'IA potrebbe scontrarsi con il muro dei dati ancora prima. Il boom dell'IA generativa degli ultimi anni ha aumentato le tensioni sulla proprietà delle informazioni e sulla violazione del copyright. Sempre più proprietari di siti Web stanno utilizzando il protocollo Robots Exclusion Protocol, uno standard che utilizza un file robots.txt per bloccare i crawler Web, o stanno chiarendo che il loro sito è off-limits. 

Uno studio del 2024 pubblicato da un gruppo di ricerca guidato dal MIT ha rivelato che le restrizioni del dataset Colossal Cleaned Common Crawl (C4), un corpus di web crawling su larga scala, sono in aumento. Oltre Il 28% delle fonti più attive e critiche in C4 erano completamente limitati. Inoltre, il 45% di C4 è ora designato off-limits dai termini di servizio. 

Se le aziende rispettano queste restrizioni, la freschezza, la pertinenza e l'accuratezza dei fatti pubblici del mondo reale diminuiranno, costringendole a fare affidamento su database artificiali. Potrebbero non avere molta scelta se i tribunali stabiliscono che qualsiasi alternativa costituisce una violazione del copyright. 

Il futuro dei dati sintetici e delle allucinazioni dell'intelligenza artificiale 

Man mano che le leggi sul copyright si modernizzano e sempre più proprietari di siti web nascondono i propri contenuti ai web crawler, la generazione di dataset artificiali diventerà sempre più popolare. Le organizzazioni devono prepararsi ad affrontare la minaccia delle allucinazioni. 

Zac Amos è uno scrittore di tecnologia che si concentra sull'intelligenza artificiale. È anche il Features Editor di Rehack, dove puoi leggere altri suoi lavori.