Seguici sui social

La verità sui dati sintetici: perché la competenza umana è fondamentale per il successo dell'LLM

Leader del pensiero

La verità sui dati sintetici: perché la competenza umana è fondamentale per il successo dell'LLM

mm

Gli sviluppatori LLM si stanno affidando sempre più ai dati sintetici per accelerare lo sviluppo e ridurre i costi. I ricercatori alla base di diversi modelli di alto livello, come LLama 3, Qwen 2 e DeepSeek R1, hanno menzionato l'utilizzo di dati sintetici per addestrare i loro modelli nei loro articoli di ricerca. Dall'esterno, sembra la soluzione perfetta: una fonte infinita di informazioni per accelerare lo sviluppo e ridurre i costi. Ma questa soluzione ha un costo nascosto che i leader aziendali non possono ignorare.

In parole povere, dati sintetici Viene generato da modelli di intelligenza artificiale per creare set di dati artificiali per l'addestramento, la messa a punto e la valutazione di LLM e agenti di intelligenza artificiale. Rispetto alla tradizionale annotazione umana, consente alla pipeline di dati di scalare rapidamente, il che è essenziale nel panorama competitivo e in rapida evoluzione dello sviluppo dell'intelligenza artificiale.

Le aziende potrebbero avere altri motivi per utilizzare dati "falsi", come proteggere informazioni sensibili o riservate in ambito finanziario o sanitario generando versioni anonime. I dati sintetici sono anche un valido sostituto quando non sono disponibili dati proprietari, ad esempio prima del lancio di un prodotto o quando i dati appartengono a clienti esterni.

Ma i dati sintetici stanno rivoluzionando lo sviluppo dell'intelligenza artificiale? La risposta breve è un sì qualificato: hanno un grande potenziale, ma possono anche esporre LLM e agenti a vulnerabilità critiche Senza una rigorosa supervisione umana. I produttori di LLM e gli sviluppatori di agenti di IA potrebbero scoprire che i modelli di IA addestrati su dati sintetici non adeguatamente verificati possono generare risultati inaccurati o distorti, creare crisi reputazionali e comportare la non conformità agli standard etici e di settore. Investire nella supervisione umana per perfezionare i dati sintetici è un investimento diretto per proteggere i profitti, mantenere la fiducia degli stakeholder e garantire un'adozione responsabile dell'IA.

Con l'apporto umano, i dati sintetici possono essere trasformati in dati di addestramento di alta qualità. Ci sono tre motivi fondamentali per raffinare i dati generati prima di utilizzarli per addestrare l'IA: colmare le lacune nella conoscenza del modello sorgente, migliorare la qualità dei dati e ridurre le dimensioni del campione, e allinearsi ai valori umani.

Dobbiamo catturare una conoscenza unica

I dati sintetici vengono generati principalmente da LLM che si formano su fonti internet accessibili al pubblico, il che crea una limitazione intrinseca. I contenuti pubblici raramente catturano le conoscenze pratiche e concrete utilizzate nel lavoro reale. Attività come la progettazione di una campagna di marketing, la preparazione di previsioni finanziarie o la conduzione di analisi di mercato sono in genere private e non documentate online. Inoltre, le fonti tendono a riflettere un linguaggio e una cultura incentrati sugli Stati Uniti, limitandone la rappresentazione globale.

Per superare queste limitazioni, possiamo coinvolgere esperti nella creazione di campioni di dati in aree che riteniamo non siano coperte dal modello di generazione di dati sintetici. Tornando all'esempio aziendale, se vogliamo che il nostro modello finale gestisca efficacemente le previsioni finanziarie e le analisi di mercato, i dati di training devono includere attività realistiche in questi ambiti. È importante identificare queste lacune e integrare i dati sintetici con campioni creati da esperti.

Gli esperti vengono spesso coinvolti nelle fasi iniziali del progetto per definire l'ambito di lavoro. Ciò include la creazione di una tassonomia, che delinea le aree di conoscenza specifiche in cui il modello deve operare. Ad esempio, in ambito sanitario, la medicina generale può essere suddivisa in sottoargomenti come nutrizione, salute cardiovascolare, allergie e altro ancora. Un modello incentrato sulla salute deve essere addestrato in tutte le sottoaree che si prevede di coprire. Dopo che la tassonomia è stata definita dagli esperti sanitari, gli LLM possono essere utilizzati per generare rapidamente e su larga scala punti dati con domande e risposte tipiche. È comunque necessario l'intervento di esperti umani per rivedere, correggere e migliorare questi contenuti, garantendone non solo l'accuratezza, ma anche la sicurezza e l'appropriatezza contestuale. Questo processo di garanzia della qualità è necessario nelle applicazioni ad alto rischio, come l'assistenza sanitaria, per garantire l'accuratezza dei dati e mitigare potenziali danni.

Qualità sulla quantità: guidare l'efficienza del modello con campioni meno numerosi e migliori

Quando gli esperti di settore creano dati per la formazione di LLM e agenti di intelligenza artificiale, creano tassonomie per set di dati, scrivono prompt, elaborano le risposte ideali o simulano un'attività specifica. Tutti i passaggi sono attentamente progettati per adattarsi allo scopo del modello e la qualità è garantita da esperti nei rispettivi campi.

La generazione di dati sintetici non replica completamente questo processo. Si basa sui punti di forza del modello sottostante utilizzato per la creazione dei dati e la qualità risultante spesso non è paragonabile a quella dei dati curati da esseri umani. Ciò significa che i dati sintetici richiedono spesso volumi molto più grandi per ottenere risultati soddisfacenti, con un conseguente aumento dei costi computazionali e dei tempi di sviluppo.

In domini complessi, ci sono sfumature che solo gli esperti umani possono individuare, soprattutto con valori anomali o casi limite. I dati curati da esperti umani offrono costantemente prestazioni del modello migliori, anche con set di dati significativamente più piccoli. Integrando strategicamente le competenze umane nel processo di creazione dei dati, possiamo ridurre il numero di campioni necessari affinché il modello funzioni efficacemente.

Nella nostra esperienzaIl modo migliore per affrontare questa sfida è coinvolgere esperti in materia nella creazione di dataset sintetici. Quando gli esperti progettano le regole per la generazione dei dati, definiscono le tassonomie e rivedono o correggono i dati generati, la qualità finale dei dati è molto più elevata. Questo approccio ha permesso ai nostri clienti di ottenere risultati eccellenti utilizzando un numero inferiore di campioni di dati, consentendo un percorso di produzione più rapido ed efficiente.

Costruire la fiducia: il ruolo insostituibile degli esseri umani nella sicurezza e nell'allineamento dell'IA

I sistemi automatizzati non possono prevedere tutte le vulnerabilità né garantire l'allineamento con i valori umani, soprattutto nei casi limite e negli scenari ambigui. I revisori umani esperti svolgono un ruolo cruciale nell'identificare i rischi emergenti e garantire risultati etici prima dell'implementazione. Questo è un livello di protezione che l'IA, almeno per ora, non può fornire completamente da sola.

Pertanto, per costruire un solido dataset di red teaming, i soli dati sintetici non saranno sufficienti. È importante coinvolgere esperti di sicurezza fin dalle prime fasi del processo. Possono aiutare a mappare i tipi di potenziali attacchi e a orientare la struttura del dataset. Gli LLM possono quindi essere utilizzati per generare un elevato volume di esempi. Successivamente, sono necessari esperti per verificare e perfezionare i dati e garantire che siano realistici, di alta qualità e utili per testare i sistemi di intelligenza artificiale. Ad esempio, un LLM può generare migliaia di prompt di hacking standard, ma un esperto di sicurezza umano può creare nuovi attacchi di "ingegneria sociale" che sfruttano bias psicologici sfumati: una minaccia creativa che i sistemi automatizzati faticano a inventare da soli.

Sono stati compiuti progressi significativi nell'allineamento degli LLM utilizzando il feedback automatizzato. Nel documento "RLAIF vs. RLHF: scalare l'apprendimento per rinforzo dal feedback umano con il feedback dell'IA, " I ricercatori dimostrano che l'allineamento basato sull'intelligenza artificiale può offrire prestazioni paragonabili al feedback umano in molti casi. Tuttavia, sebbene il feedback basato sull'intelligenza artificiale migliori con il miglioramento dei modelli, la nostra esperienza dimostra che RLAIF presenta ancora difficoltà in domini complessi e con casi limite o valori anomali, aree in cui le prestazioni possono essere critiche a seconda dell'applicazione. Gli esperti umani sono più efficaci nel gestire le sfumature e il contesto delle attività, il che li rende più affidabili per l'allineamento.

Gli agenti di intelligenza artificiale traggono vantaggio anche dai test automatizzati per affrontare un'ampia gamma di rischi per la sicurezza. Gli ambienti di test virtuali utilizzano dati generati per simulare comportamenti degli agenti, come l'interazione con strumenti online e l'esecuzione di azioni sui siti web. Per massimizzare la copertura dei test in scenari realistici, le competenze umane sono fondamentali per progettare i casi di test, verificare i risultati delle valutazioni automatizzate e segnalare le vulnerabilità.

Il futuro dei dati sintetici

I dati sintetici rappresentano una tecnica estremamente preziosa per lo sviluppo di modelli linguistici di grandi dimensioni, soprattutto quando la scalabilità e la rapida implementazione sono fondamentali nel frenetico panorama odierno. Sebbene non vi siano difetti fondamentali nei dati sintetici in sé, richiedono un perfezionamento per raggiungere il loro pieno potenziale e offrire il massimo valore. Un approccio ibrido che combina la generazione automatizzata di dati con le competenze umane è un metodo altamente efficace per sviluppare modelli affidabili e performanti, poiché le prestazioni finali del modello dipendono maggiormente dalla qualità dei dati che dal volume totale. Questo processo integrato, che utilizza l'intelligenza artificiale per la scalabilità e gli esperti umani per la convalida, produce modelli più performanti con un migliore allineamento in termini di sicurezza, essenziale per costruire la fiducia degli utenti e garantire un'implementazione responsabile.

Ilya Kochik è il vicepresidente dello sviluppo aziendale presso Toloka, un partner per i dati umani presso i principali laboratori di ricerca GenAI, dove è specializzato in attività all'avanguardia per modelli di frontiera e sistemi agenti. Con sede a Londra, il suo background include ruoli dirigenziali e tecnici presso Google, QuantumBlack (AI di McKinsey) e Bain & Company.