Leader di pensiero
La Verità sui Dati Sintetici: Perché l’Esperto Umano è Fondamentale per il Successo di LLM

Gli sviluppatori di LLM stanno sempre più utilizzando i dati sintetici per accelerare lo sviluppo e ridurre i costi. I ricercatori dietro diversi modelli di alto livello, come LLama 3, Qwen 2 e DeepSeek R1, hanno menzionato l’utilizzo di dati sintetici per addestrare i loro modelli nei documenti di ricerca. Dall’esterno, sembra la soluzione perfetta: una fonte infinita di informazioni per accelerare lo sviluppo e ridurre i costi. Ma questa soluzione comporta un costo nascosto che i leader aziendali non possono ignorare.
In termini semplici, i dati sintetici sono generati da modelli di intelligenza artificiale per creare set di dati artificiali per l’addestramento, la fine-tuning e la valutazione di LLM e agenti di intelligenza artificiale. Rispetto all’annotazione tradizionale umana, consente di scalare rapidamente il flusso di dati, il che è essenziale nel panorama in rapida evoluzione e competitivo dello sviluppo di intelligenza artificiale.
Le imprese possono avere altre ragioni per utilizzare “dati falsi”, come proteggere informazioni sensibili o confidenziali in ambienti finanziari o sanitari generando versioni anonime. I dati sintetici sono anche un buon sostituto quando i dati proprietari non sono disponibili, ad esempio prima del lancio di un prodotto o quando i dati appartengono a clienti esterni.
Ma i dati sintetici stanno rivoluzionando lo sviluppo di intelligenza artificiale? La risposta breve è un sì qualificato: ha un grande potenziale, ma può anche esporre LLM e agenti a vulnerabilità critiche senza una rigorosa supervisione umana. I produttori di LLM e gli sviluppatori di agenti di intelligenza artificiale possono scoprire che i modelli di intelligenza artificiale addestrati su dati sintetici non verificati possono generare output inaccurati o distorti, creare crisi di reputazione e portare a non conformità con gli standard industriali ed etici. Investire nella supervisione umana per raffinare i dati sintetici è un investimento diretto nella protezione del bottom line, nel mantenimento della fiducia degli stakeholder e nell’adozione responsabile di intelligenza artificiale.
Con l’input umano, i dati sintetici possono essere trasformati in dati di addestramento di alta qualità. Ci sono tre motivi critici per raffinare i dati generati prima di utilizzarli per addestrare l’intelligenza artificiale: per colmare le lacune nella conoscenza del modello di origine, per migliorare la qualità dei dati e ridurre le dimensioni del campione, e per allinearsi con i valori umani.
Abbiamo bisogno di catturare conoscenze uniche
I dati sintetici sono generati principalmente da LLM addestrati su fonti internet pubblicamente disponibili, creando una limitazione intrinseca. Il contenuto pubblico raramente cattura la conoscenza pratica e operativa utilizzata nel lavoro del mondo reale. Attività come la progettazione di una campagna di marketing, la preparazione di una previsione finanziaria o la conduzione di un’analisi di mercato sono tipicamente private e non documentate online. Inoltre, le fonti tendono a riflettere il linguaggio e la cultura centrica negli Stati Uniti, limitando la rappresentazione globale.
Per superare queste limitazioni, possiamo coinvolgere esperti per creare campioni di dati in aree in cui sospettiamo che il modello di generazione di dati sintetici non possa coprire. Tornando all’esempio aziendale, se vogliamo che il nostro modello finale gestisca efficacemente le previsioni finanziarie e l’analisi di mercato, i dati di addestramento devono includere attività realistiche di questi campi. È importante identificare queste lacune e integrare i dati sintetici con campioni creati dagli esperti.
Gli esperti sono spesso coinvolti all’inizio del progetto per definire l’ambito del lavoro. Ciò include la creazione di una tassonomia, che delinea le aree specifiche di conoscenza in cui il modello deve eseguire. Ad esempio, nel settore sanitario, la medicina generale può essere divisa in sottocategorie come nutrizione, salute cardiovascolare, allergie e altro. Un modello sanitario deve essere addestrato in tutte le sottocategorie che è previsto debba coprire. Dopo che la tassonomia è stata definita da esperti sanitari, gli LLM possono essere utilizzati per generare punti dati con domande e risposte tipiche in modo rapido e su larga scala. Gli esperti umani sono ancora necessari per esaminare, correggere e migliorare questo contenuto per assicurarsi che sia non solo accurato ma anche sicuro e contestualmente appropriato. Questo processo di garanzia della qualità è necessario in applicazioni ad alto rischio, come la sanità, per garantire l’accuratezza dei dati e mitigare il danno potenziale.
Qualità contro quantità: guidare l’efficienza del modello con meno campioni di alta qualità
Quando gli esperti del dominio creano dati per l’addestramento di LLM e agenti di intelligenza artificiale, creano tassonomie per set di dati, scrivono prompt, creano risposte ideali o simulano un’attività specifica. Tutti i passaggi sono progettati con cura per adattarsi allo scopo del modello, e la qualità è garantita da esperti del settore corrispondente.
La generazione di dati sintetici non replica completamente questo processo. Si basa sulla forza del modello sottostante utilizzato per la creazione dei dati, e la qualità risultante è spesso non all’altezza dei dati curati dagli esseri umani. Ciò significa che i dati sintetici richiedono spesso volumi molto più grandi per ottenere risultati soddisfacenti, aumentando i costi computazionali e il tempo di sviluppo.
In domini complessi, ci sono sfumature che solo gli esperti umani possono notare, specialmente con outlier o casi limite. I dati curati dagli esseri umani forniscono costantemente prestazioni del modello migliori, anche con set di dati significativamente più piccoli. Integrando strategicamente l’esperto umano nel processo di creazione dei dati, possiamo ridurre il numero di campioni necessari per far funzionare efficacemente il modello.
Nella nostra esperienza, il modo migliore per affrontare questa sfida è coinvolgere gli esperti del settore nella costruzione di set di dati sintetici. Quando gli esperti progettano le regole per la generazione dei dati, definiscono le tassonomie dei dati e verificano o correggono i dati generati, la qualità finale dei dati è molto più alta. Questo approccio ha consentito ai nostri clienti di ottenere risultati solidi utilizzando meno campioni di dati, portando a un percorso più veloce e efficiente verso la produzione.
Costruire la fiducia: il ruolo insostituibile degli esseri umani nella sicurezza e nell’allineamento dell’AI
I sistemi automatizzati non possono prevedere tutte le vulnerabilità o garantire l’allineamento con i valori umani, in particolare nei casi limite e nelle situazioni ambigue. Gli esperti umani svolgono un ruolo cruciale nell’identificazione dei rischi emergenti e nel garantire risultati etici prima del deployment. Questo è un livello di protezione che l’AI, almeno per ora, non può fornire completamente da sola.
Pertanto, per costruire un set di dati di red teaming solido, i dati sintetici da soli non sono sufficienti. È importante coinvolgere gli esperti di sicurezza all’inizio del processo. Possono aiutare a mappare i tipi di attacchi potenziali e guidare la struttura del set di dati. Gli LLM possono quindi essere utilizzati per generare un alto volume di esempi. Dopo di che, gli esperti sono necessari per verificare e raffinare i dati per assicurarsi che siano realistici, di alta qualità e utili per testare i sistemi di intelligenza artificiale. Ad esempio, un LLM può generare migliaia di prompt di hacking standard, ma un esperto di sicurezza umano può creare nuovi attacchi di “ingegneria sociale” che sfruttano pregiudizi psicologici sottili – una minaccia creativa che i sistemi automatizzati faticano a inventare da soli.
È stato fatto un progresso significativo nell’allineamento degli LLM utilizzando il feedback automatizzato. Nel documento “RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback,” i ricercatori mostrano che il feedback basato su AI può performare in modo comparabile al feedback umano in molti casi. Tuttavia, mentre il feedback di AI migliora con il miglioramento dei modelli, la nostra esperienza mostra che RLAIF ancora lotta in domini complessi e con casi limite o outlier, aree in cui le prestazioni possono essere critiche a seconda dell’applicazione. Gli esperti umani sono più efficaci nel gestire le sfumature delle attività e il contesto, rendendoli più affidabili per l’allineamento.
Gli agenti di intelligenza artificiale traggono anche beneficio dai test automatizzati per affrontare una vasta gamma di rischi per la sicurezza. Gli ambienti di test virtuali utilizzano i dati generati per simulare i comportamenti degli agenti come l’interfaccia con strumenti online e l’esecuzione di azioni sui siti web. Per massimizzare la copertura dei test in scenari realistici, l’esperto umano è fondamentale per progettare i casi di test, verificare i risultati delle valutazioni automatizzate e segnalare le vulnerabilità.
Il futuro dei dati sintetici
I dati sintetici sono una tecnica molto preziosa per lo sviluppo di modelli linguistici di grandi dimensioni, specialmente quando la scalabilità e il deployment rapido sono critici nel panorama odierno in rapida evoluzione. Mentre non ci sono difetti fondamentali nei dati sintetici stessi, richiedono un raffinamento per raggiungere il loro pieno potenziale e fornire il massimo valore. Un approccio ibrido che combina la generazione di dati automatizzata con l’esperto umano è un metodo molto efficace per sviluppare modelli capaci e affidabili, poiché le prestazioni finali del modello dipendono più dalla qualità dei dati che dal volume totale. Questo processo integrato, utilizzando l’AI per la scala e gli esperti umani per la convalida, produce modelli più capaci con un miglior allineamento della sicurezza, il che è essenziale per costruire la fiducia degli utenti e garantire il deployment responsabile.








