Prompt engineering

Guida Completa alla Generazione di Dati Sintetici con LLM

Published July 5, 2024

Updated May 21, 2026

Aayush Mittal Mittal

div]:bg-bg-300 [&_pre]:-mr-4 md:[&_pre]:-mr-9″>

_*]:min-w-0″>

I Modelli Linguistici di Grande Scala (LLM) sono strumenti potenti non solo per generare testo simile a quello umano, ma anche per creare dati sintetici di alta qualità. Questa capacità sta cambiando il modo in cui affrontiamo lo sviluppo dell’AI, in particolare in scenari in cui i dati del mondo reale sono scarsi, costosi o sensibili dal punto di vista della privacy. In questa guida completa, esploreremo la generazione di dati sintetici guidata da LLM, immergendoci profondamente nei metodi, nelle applicazioni e nelle best practice.

Introduzione alla Generazione di Dati Sintetici con LLM

La generazione di dati sintetici utilizzando LLM consiste nell’utilizzare questi modelli AI avanzati per creare set di dati artificiali che mimano i dati del mondo reale. Questo approccio offre diversi vantaggi:

Efficienza dei costi: generare dati sintetici è spesso più economico che raccogliere e annotare dati del mondo reale.
Protezione della privacy: i dati sintetici possono essere creati senza esporre informazioni sensibili.
Scalabilità: gli LLM possono generare grandi quantità di dati diversi in tempi rapidi.
Personalizzazione: i dati possono essere adattati a casi d’uso o scenari specifici.

Iniziamo comprendendo il processo di base della generazione di dati sintetici utilizzando LLM:

from transformers import AutoTokenizer, AutoModelForCausalLM

<p># Carica un LLM pre-addestrato
model_name = "gpt2-large"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)</p>

<p># Definisci un prompt per la generazione di dati sintetici
prompt = "Genera una recensione di un cliente per uno smartphone:"</p>

<p># Genera dati sintetici
input_ids = tokenizer.encode(prompt, return_tensors="pt")
output = model.generate(input_ids, max_length=100, num_return_sequences=1)</p>

<p># Decodifica e stampa il testo generato
synthetic_review = tokenizer.decode(output[0], skip_special_tokens=True)
print(synthetic_review)

Questo esempio semplice dimostra come un LLM possa essere utilizzato per generare recensioni di clienti sintetiche. Tuttavia, il vero potere della generazione di dati sintetici guidata da LLM risiede in tecniche e applicazioni più sofisticate.

2. Tecniche Avanzate per la Generazione di Dati Sintetici

2.1 Ingegneria dei Prompt

L’ingegneria dei prompt è cruciale per guidare gli LLM a generare dati sintetici di alta qualità e rilevanti. Progettando attentamente i prompt, possiamo controllare vari aspetti dei dati generati, come stile, contenuto e formato.

Esempio di un prompt più sofisticato:

prompt = """
Genera una recensione dettagliata di un cliente per uno smartphone con le seguenti caratteristiche:
- Marca: {marca}
- Modello: {modello}
- Caratteristiche chiave: {caratteristiche}
- Valutazione: {valutazione}/5 stelle

La recensione dovrebbe essere tra 50-100 parole e includere sia aspetti positivi che negativi.

Recensione:
"""
</p>

<p>Marche = ["Apple", "Samsung", "Google", "OnePlus"]
modelli = ["iPhone 13 Pro", "Galaxy S21", "Pixel 6", "9 Pro"]
caratteristiche = ["5G, display OLED, triple camera", "120Hz refresh rate, 8K video", "AI-powered camera, 5G", "Ricarica rapida, 120Hz display"]
valutazioni = [4, 3, 5, 4]</p>

<p># Genera più recensioni
for marca, modello, caratteristica, valutazione in zip(marche, modelli, caratteristiche, valutazioni):
filled_prompt = prompt.format(marca=marca, modello=modello, caratteristiche=caratteristica, valutazione=valutazione)
input_ids = tokenizer.encode(filled_prompt, return_tensors="pt")
output = model.generate(input_ids, max_length=200, num_return_sequences=1)
synthetic_review = tokenizer.decode(output[0], skip_special_tokens=True)
print(f"Recensione per {marca} {modello}:\n{synthetic_review}\n")

Questo approccio consente una generazione di dati sintetici più controllata e diversificata, adattata a scenari o tipi di prodotto specifici.

2.2 Apprendimento con Pochi Esempi

L’apprendimento con pochi esempi coinvolge la fornitura all’LLM di pochi esempi del formato di output desiderato e dello stile. Questa tecnica può migliorare significativamente la qualità e la coerenza dei dati generati.

few_shot_prompt = """
Genera una conversazione di supporto clienti tra un agente (A) e un cliente (C) su un problema di prodotto. Segui questo formato:

<p>C: Ciao, ho problemi con le mie nuove cuffie. L'auricolare destro non funziona.
A: Mi dispiace sentire questo. Puoi dirmi quale modello di cuffie hai?
C: È il SoundMax Pro 3000.
A: Grazie. Hai provato a resettare le cuffie mettendole nella custodia di ricarica per 10 secondi?
C: Sì, l'ho fatto, ma non ha funzionato.
A: Capisco. Proviamo ad eseguire un aggiornamento del firmware. Puoi andare sul nostro sito web e scaricare l'ultimo firmware?</p>

<p>Ora genera una nuova conversazione su un problema di prodotto diverso:</p>

<p>C: Ciao, ho appena ricevuto il mio nuovo smartwatch, ma non si accende.
"""
</p>

<p># Genera la conversazione
input_ids = tokenizer.encode(few_shot_prompt, return_tensors="pt")
output = model.generate(input_ids, max_length=500, num_return_sequences=1)
synthetic_conversation = tokenizer.decode(output[0], skip_special_tokens=True)
print(synthetic_conversation)

Questo approccio aiuta l’LLM a comprendere la struttura della conversazione desiderata e lo stile, risultando in interazioni di supporto clienti sintetiche più realistiche.

2.3 Generazione Condizionale

La generazione condizionale consente di controllare attributi specifici dei dati generati. Questo è particolarmente utile quando è necessario creare set di dati diversi con caratteristiche controllate.

from transformers import GPT2LMHeadModel, GPT2Tokenizer
import torch

<p>model = GPT2LMHeadModel.from_pretrained("gpt2-medium")
tokenizer = GPT2Tokenizer.from_pretrained("gpt2-medium")</p>

<p>def generate_conditional_text(prompt, condition, max_length=100):
input_ids = tokenizer.encode(prompt, return_tensors="pt")
attention_mask = torch.ones(input_ids.shape, dtype=torch.long, device=input_ids.device)</p>

<p> # Codifica la condizione
condition_ids = tokenizer.encode(condition, add_special_tokens=False, return_tensors="pt")</p>

<p> # Concatena la condizione con input_ids
input_ids = torch.cat([condition_ids, input_ids], dim=-1)
attention_mask = torch.cat([torch.ones(condition_ids.shape, dtype=torch.long, device=condition_ids.device), attention_mask], dim=-1)</p>

<p> output = model.generate(input_ids, attention_mask=attention_mask, max_length=max_length, num_return_sequences=1, no_repeat_ngram_size=2, do_sample=True, top_k=50, top_p=0.95, temperature=0.7)</p>

<p> return tokenizer.decode(output[0], skip_special_tokens=True)</p>

<p># Genera descrizioni di prodotti con condizioni diverse
condizioni = ["Lusso", "Budget-friendly", "Eco-friendly", "Alta tecnologia"]
prompt = "Descrivi uno zaino:"</p>

<p>per condizione in condizioni:
descrizione = generate_conditional_text(prompt, condizione)
print(f"{condizione} descrizione zaino:\n{descrizione}\n")

Questa tecnica consente di generare dati sintetici diversi mantenendo il controllo su attributi specifici, assicurando che il set di dati generato copra una vasta gamma di scenari o tipi di prodotto.

Applicazioni dei Dati Sintetici Generati da LLM

Integrazione dei Dati di Addestramento

Una delle applicazioni più potenti dei dati sintetici generati da LLM è l’integrazione dei set di dati di addestramento esistenti. Questo è particolarmente utile in scenari in cui i dati del mondo reale sono limitati o costosi da ottenere.

import pandas as pd
from sklearn.model_selection import train_test_split
from transformers import pipeline

<p># Carica un piccolo set di dati del mondo reale
real_data = pd.read_csv("small_product_reviews.csv")</p>

<p># Dividi i dati
train_data, test_data = train_test_split(real_data, test_size=0.2, random_state=42)</p>

<p># Inizializza la pipeline di generazione del testo
generator = pipeline("text-generation", model="gpt2-medium")</p>

<p>def augment_dataset(data, num_synthetic_samples):
synthetic_data = []
for _, row in data.iterrows():
prompt = f"Genera una recensione di prodotto simile a: {row['review']}\nNuova recensione:"
synthetic_review = generator(prompt, max_length=100, num_return_sequences=1)[0]['generated_text']
synthetic_data.append({'review': synthetic_review, 'sentiment': row['sentiment']}) # Assumendo che il sentimento sia preservato
if len(synthetic_data) &gt;= num_synthetic_samples:
break
return pd.DataFrame(synthetic_data)</p>

<p># Genera dati sintetici
synthetic_train_data = augment_dataset(train_data, num_synthetic_samples=len(train_data))</p>

<p># Combina dati reali e sintetici
augmented_train_data = pd.concat([train_data, synthetic_train_data], ignore_index=True)</p>

<p>print(f"Dimensione dei dati di addestramento originali: {len(train_data)}")
print(f"Dimensione dei dati di addestramento aumentati: {len(augmented_train_data)}")</p>

Questo approccio può aumentare significativamente la dimensione e la diversità del tuo set di dati di addestramento, potenzialmente migliorando le prestazioni e la robustezza dei tuoi modelli di apprendimento automatico.

Sfide e Best Practice

Sebbene la generazione di dati sintetici guidata da LLM offra numerosi vantaggi, presenta anche sfide:

Controllo della Qualità: assicurarsi che i dati generati siano di alta qualità e rilevanti per il proprio caso d’uso. Implementare processi di convalida rigorosi.
Mitigazione dei Pregiudizi: gli LLM possono ereditare e amplificare i pregiudizi presenti nei loro dati di addestramento. Essere consapevoli di ciò e implementare strategie di rilevamento e mitigazione dei pregiudizi.
Diversità: assicurarsi che il set di dati sintetici sia diverso e rappresentativo di scenari del mondo reale.
Coerenza: mantenere la coerenza nei dati generati, specialmente quando si creano grandi set di dati.
Considerazioni Etiche: essere consapevoli delle implicazioni etiche, specialmente quando si generano dati sintetici che mimano informazioni sensibili o personali.

Best practice per la generazione di dati sintetici guidata da LLM:

Rifinimento Iterativo: raffinare continuamente i prompt e le tecniche di generazione in base alla qualità dell’output.
Approcci Ibridi: combinare dati sintetici generati da LLM con dati del mondo reale per ottenere risultati ottimali.
Convalida: implementare processi di convalida robusti per assicurarsi della qualità e della rilevanza dei dati generati.
Documentazione: mantenere una documentazione chiara del processo di generazione dei dati sintetici per trasparenza e riproducibilità.
Linee Guida Etiche: sviluppare e aderire a linee guida etiche per la generazione e l’uso di dati sintetici.

Conclusione

La generazione di dati sintetici guidata da LLM è una tecnica potente che sta trasformando il modo in cui affrontiamo lo sviluppo dell’AI. Sfruttando le capacità dei modelli linguistici avanzati, possiamo creare set di dati diversi e di alta qualità che alimentano l’innovazione in vari domini. Mentre la tecnologia continua a evolversi, promette di sbloccare nuove possibilità nella ricerca e nello sviluppo di applicazioni AI, affrontando allo stesso tempo sfide critiche relative alla scarsità dei dati e alla privacy.

Mentre procediamo, è cruciale affrontare la generazione di dati sintetici con una prospettiva equilibrata, sfruttando i suoi vantaggi mentre si è consapevoli dei suoi limiti e delle sue implicazioni etiche. Con un’implementazione attenta e un raffinamento continuo, la generazione di dati sintetici guidata da LLM ha il potenziale di accelerare i progressi dell’AI e aprire nuove frontiere nell’apprendimento automatico e nella scienza dei dati.

Aayush Mittal

Ho trascorso gli ultimi cinque anni immergendomi nel fascinante mondo del Machine Learning e del Deep Learning. La mia passione e la mia esperienza mi hanno portato a contribuire a oltre 50 progetti di ingegneria del software diversi, con un focus particolare su AI/ML. La mia curiosità continua mi ha anche portato verso l'elaborazione del linguaggio naturale, un campo che sono ansioso di esplorare ulteriormente.