Engenharia imediata

Guia completo sobre geração de dados sintéticos LLM

Publicado 5 de julho de 2024

Aayush Mittal Mittal

Modelos de linguagem grandes Os LLMs (LLMs) são ferramentas poderosas não apenas para gerar textos com aparência humana, mas também para criar dados sintéticos de alta qualidade. Essa capacidade está mudando a forma como abordamos o desenvolvimento de IA, especialmente em cenários onde os dados do mundo real são escassos, caros ou sensíveis à privacidade. Neste guia abrangente, exploraremos a geração de dados sintéticos orientada por LLMs, aprofundando-nos em seus métodos, aplicações e melhores práticas.

Introdução à geração de dados sintéticos com LLMs

Dados sintéticos a geração usando LLMs envolve o aproveitamento desses modelos avançados de IA para criar conjuntos de dados artificiais que imitam dados do mundo real. Essa abordagem oferece diversas vantagens:

Custo-efetividade: A geração de dados sintéticos costuma ser mais barata do que a coleta e anotação de dados do mundo real.
Proteção de privacidade: dados sintéticos podem ser criados sem expor informações confidenciais.
Global: LLMs podem gerar grandes quantidades de dados diversos rapidamente.
Personalização: os dados podem ser adaptados para casos ou cenários de uso específicos.

Vamos começar entendendo o processo básico de geração de dados sintéticos usando LLMs:

from transformers import AutoTokenizer, AutoModelForCausalLM

# Load a pre-trained LLM
model_name = "gpt2-large"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

# Define a prompt for synthetic data generation
prompt = "Generate a customer review for a smartphone:"

# Generate synthetic data
input_ids = tokenizer.encode(prompt, return_tensors="pt")
output = model.generate(input_ids, max_length=100, num_return_sequences=1)

# Decode and print the generated text
synthetic_review = tokenizer.decode(output[0], skip_special_tokens=True)
print(synthetic_review)

Este exemplo simples demonstra como um LLM pode ser usado para gerar avaliações sintéticas de clientes. No entanto, o verdadeiro poder da geração de dados sintéticos orientada por LLM reside em técnicas e aplicações mais sofisticadas.

2. Técnicas Avançadas para Geração de Dados Sintéticos

2.1 Engenharia imediata

Engenharia imediata é crucial para orientar os LLMs na geração de dados sintéticos relevantes e de alta qualidade. Ao elaborar prompts cuidadosamente, podemos controlar vários aspectos dos dados gerados, como estilo, conteúdo e formato.

Exemplo de um prompt mais sofisticado:

prompt = """
Generate a detailed customer review for a smartphone with the following characteristics:
- Brand: {brand}
- Model: {model}
- Key features: {features}
- Rating: {rating}/5 stars

The review should be between 50-100 words and include both positive and negative aspects.

Review:
"""

brands = ["Apple", "Samsung", "Google", "OnePlus"]
models = ["iPhone 13 Pro", "Galaxy S21", "Pixel 6", "9 Pro"]
features = ["5G, OLED display, Triple camera", "120Hz refresh rate, 8K video", "AI-powered camera, 5G", "Fast charging, 120Hz display"]
ratings = [4, 3, 5, 4]

# Generate multiple reviews
for brand, model, feature, rating in zip(brands, models, features, ratings):
filled_prompt = prompt.format(brand=brand, model=model, features=feature, rating=rating)
input_ids = tokenizer.encode(filled_prompt, return_tensors="pt")
output = model.generate(input_ids, max_length=200, num_return_sequences=1)
synthetic_review = tokenizer.decode(output[0], skip_special_tokens=True)
print(f"Review for {brand} {model}:\n{synthetic_review}\n")

Esta abordagem permite a geração de dados sintéticos mais controlados e diversificados, adaptados a cenários ou tipos de produtos específicos.

2.2 Aprendizagem rápida

O aprendizado rápido envolve fornecer ao LLM alguns exemplos do formato e estilo de saída desejado. Esta técnica pode melhorar significativamente a qualidade e consistência dos dados gerados.

few_shot_prompt = """
Generate a customer support conversation between an agent (A) and a customer (C) about a product issue. Follow this format:

C: Hello, I'm having trouble with my new headphones. The right earbud isn't working.
A: I'm sorry to hear that. Can you tell me which model of headphones you have?
C: It's the SoundMax Pro 3000.
A: Thank you. Have you tried resetting the headphones by placing them in the charging case for 10 seconds?
C: Yes, I tried that, but it didn't help.
A: I see. Let's try a firmware update. Can you please go to our website and download the latest firmware?

Now generate a new conversation about a different product issue:

C: Hi, I just received my new smartwatch, but it won't turn on.
"""

# Generate the conversation
input_ids = tokenizer.encode(few_shot_prompt, return_tensors="pt")
output = model.generate(input_ids, max_length=500, num_return_sequences=1)
synthetic_conversation = tokenizer.decode(output[0], skip_special_tokens=True)
print(synthetic_conversation)

Essa abordagem ajuda o LLM a compreender a estrutura e o estilo de conversa desejados, resultando em interações sintéticas de suporte ao cliente mais realistas.

2.3 Geração Condicional

A geração condicional nos permite controlar atributos específicos dos dados gerados. Isto é particularmente útil quando precisamos criar diversos conjuntos de dados com certas características controladas.

from transformers import GPT2LMHeadModel, GPT2Tokenizer
import torch

model = GPT2LMHeadModel.from_pretrained("gpt2-medium")
tokenizer = GPT2Tokenizer.from_pretrained("gpt2-medium")

def generate_conditional_text(prompt, condition, max_length=100):
    input_ids = tokenizer.encode(prompt, return_tensors="pt")
    attention_mask = torch.ones(input_ids.shape, dtype=torch.long, device=input_ids.device)

    # Encode the condition
    condition_ids = tokenizer.encode(condition, add_special_tokens=False, return_tensors="pt")

    # Concatenate condition with input_ids
    input_ids = torch.cat([condition_ids, input_ids], dim=-1)
    attention_mask = torch.cat([torch.ones(condition_ids.shape, dtype=torch.long, device=condition_ids.device), attention_mask], dim=-1)

    output = model.generate(input_ids, attention_mask=attention_mask, max_length=max_length, num_return_sequences=1, no_repeat_ngram_size=2, do_sample=True, top_k=50, top_p=0.95, temperature=0.7)

    return tokenizer.decode(output[0], skip_special_tokens=True)

# Generate product descriptions with different conditions
conditions = ["Luxury", "Budget-friendly", "Eco-friendly", "High-tech"]
prompt = "Describe a backpack:"

for condition in conditions:
description = generate_conditional_text(prompt, condition)
print(f"{condition} backpack description:\n{description}\n")

Esta técnica permite gerar diversos dados sintéticos, mantendo o controle sobre atributos específicos, garantindo que o conjunto de dados gerado cubra uma ampla gama de cenários ou tipos de produtos.

Aplicações de dados sintéticos gerados por LLM

Aumento de dados de treinamento

Uma das aplicações mais poderosas dos dados sintéticos gerados pelo LLM é aumentar os conjuntos de dados de treinamento existentes. Isto é particularmente útil em cenários onde a obtenção de dados do mundo real é limitada ou dispendiosa.

import pandas as pd
from sklearn.model_selection import train_test_split
from transformers import pipeline

# Load a small real-world dataset
real_data = pd.read_csv("small_product_reviews.csv")

# Split the data
train_data, test_data = train_test_split(real_data, test_size=0.2, random_state=42)

# Initialize the text generation pipeline
generator = pipeline("text-generation", model="gpt2-medium")

def augment_dataset(data, num_synthetic_samples):
    synthetic_data = []
    for _, row in data.iterrows():
        prompt = f"Generate a product review similar to: {row['review']}\nNew review:"
        synthetic_review = generator(prompt, max_length=100, num_return_sequences=1)[0]['generated_text']
        synthetic_data.append({'review': synthetic_review,'sentiment': row['sentiment'] # Assuming the sentiment is preserved})
        if len(synthetic_data) &gt;= num_synthetic_samples:
            break
    return pd.DataFrame(synthetic_data)

# Generate synthetic data
synthetic_train_data = augment_dataset(train_data, num_synthetic_samples=len(train_data))

# Combine real and synthetic data
augmented_train_data = pd.concat([train_data, synthetic_train_data], ignore_index=True)

print(f"Original training data size: {len(train_data)}")
print(f"Augmented training data size: {len(augmented_train_data)}")

Essa abordagem pode aumentar significativamente o tamanho e a diversidade do seu conjunto de dados de treinamento, melhorando potencialmente o desempenho e a robustez dos seus modelos de aprendizado de máquina.

Desafios e melhores práticas

Embora a geração de dados sintéticos orientada por LLM ofereça inúmeros benefícios, ela também traz desafios:

Controle de qualidade: certifique-se de que os dados gerados sejam de alta qualidade e relevantes para seu caso de uso. Implemente processos de validação rigorosos.
Mitigação de preconceito: LLMs podem herdar e amplificar preconceitos presentes em seus dados de treinamento. Esteja ciente disso e implemente estratégias de detecção e mitigação de preconceitos.
Diversidade: certifique-se de que seu conjunto de dados sintético seja diversificado e representativo de cenários do mundo real.
Consistência: mantenha a consistência nos dados gerados, especialmente ao criar grandes conjuntos de dados.
Considerações éticas: Esteja atento às implicações éticas, especialmente ao gerar dados sintéticos que imitem informações confidenciais ou pessoais.

Melhores práticas para geração de dados sintéticos orientada por LLM:

Refinamento Iterativo: refine continuamente seus prompts e técnicas de geração com base na qualidade da saída.
Abordagens Híbridas: Combine dados gerados pelo LLM com dados do mundo real para obter resultados ideais.
Validação: Implementar processos robustos de validação para garantir a qualidade e relevância dos dados gerados.
Documentação: Mantenha uma documentação clara do seu processo de geração de dados sintéticos para transparência e reprodutibilidade.
Diretrizes Éticas: Desenvolver e aderir às diretrizes éticas para geração e uso de dados sintéticos.

Conclusão

A geração de dados sintéticos orientada por LLM é uma técnica poderosa que está transformando a forma como abordamos o desenvolvimento de IA centrado em dados. Ao aproveitar os recursos de modelos de linguagem avançados, podemos criar conjuntos de dados diversos e de alta qualidade que estimulam a inovação em vários domínios. À medida que a tecnologia continua a evoluir, promete desbloquear novas possibilidades na investigação de IA e no desenvolvimento de aplicações, ao mesmo tempo que aborda desafios críticos relacionados com a escassez de dados e a privacidade.

À medida que avançamos, é crucial abordar a geração de dados sintéticos com uma perspectiva equilibrada, aproveitando seus benefícios e, ao mesmo tempo, considerando suas limitações e implicações éticas. Com implementação cuidadosa e aprimoramento contínuo, a geração de dados sintéticos orientada por LLM tem o potencial de acelerar o progresso da IA e abrir novas fronteiras em aprendizado de máquina e ciência de dados.

A seguir

Dominando a arte dos prompts de IA: 5 técnicas para usuários avançados

Não Perca

Da engenharia imediata ao aprendizado rápido: aprimorando as respostas do modelo de IA

Aayush Mittal

Passei os últimos cinco anos mergulhando no fascinante mundo do Machine Learning e Deep Learning. Minha paixão e experiência me levaram a contribuir para mais de 50 projetos diversos de engenharia de software, com foco particular em AI/ML. Minha curiosidade contínua também me atraiu para o Processamento de Linguagem Natural, um campo que estou ansioso para explorar mais.