Промпт-инжиниринг

Полное руководство по генерации синтетических данных с помощью LLM

Published July 5, 2024

Updated April 4, 2026

Aayush Mittal Mittal

Большие языковые модели (LLM) являются мощными инструментами не только для генерации текста, похожего на человеческий, но и для создания высококачественных синтетических данных. Эта возможность меняет наш подход к разработке ИИ, особенно в сценариях, где реальные данные скудны, дорогие или чувствительны к конфиденциальности. В этом всестороннем руководстве мы рассмотрим генерацию синтетических данных с помощью LLM, глубоко погрузившись в ее методы, применения и лучшие практики.

Введение в генерацию синтетических данных с помощью LLM

Генерация синтетических данных с помощью LLM включает в себя использование этих передовых моделей ИИ для создания искусственных наборов данных, имитирующих реальные данные. Этот подход предлагает несколько преимуществ:

Экономическая эффективность: Генерация синтетических данных часто дешевле, чем сбор и аннотация реальных данных.
Защита конфиденциальности: Синтетические данные можно создавать без раскрытия конфиденциальной информации.
Масштабируемость: LLM могут генерировать огромные объемы разнообразных данных быстро.
Настройка: Данные можно адаптировать к конкретным случаям или сценариям.

Давайте начнем с понимания базового процесса генерации синтетических данных с помощью LLM:

from transformers import AutoTokenizer, AutoModelForCausalLM

# Загрузка предварительно обученной LLM
model_name = "gpt2-large"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

# Определение подсказки для генерации синтетических данных
prompt = "Сгенерируйте отзыв о смартфоне:"

# Генерация синтетических данных
input_ids = tokenizer.encode(prompt, return_tensors="pt")
output = model.generate(input_ids, max_length=100, num_return_sequences=1)

# Декодирование и вывод сгенерированного текста
synthetic_review = tokenizer.decode(output[0], skip_special_tokens=True)
print(synthetic_review)

Этот простой пример демонстрирует, как LLM можно использовать для генерации синтетических отзывов о продуктах. Однако真正ая мощь генерации синтетических данных с помощью LLM заключается в более сложных методах и применениях.

2. Продвинутые методы генерации синтетических данных

2.1 Инженерия подсказок

Инженерия подсказок имеет решающее значение для направления LLM на генерацию высококачественных и релевантных синтетических данных. Правильно создавая подсказки, мы можем контролировать различные аспекты сгенерированных данных, такие как стиль, содержание и формат.

Пример более сложной подсказки:

prompt = """
Сгенерируйте подробный отзыв о смартфоне с следующими характеристиками:
- Бренд: {brand}
- Модель: {model}
- Ключевые особенности: {features}
- Рейтинг: {rating}/5 звезд

Отзыв должен быть между 50-100 словами и включать как положительные, так и отрицательные аспекты.

Отзыв:
"""
brands = ["Apple", "Samsung", "Google", "OnePlus"]
models = ["iPhone 13 Pro", "Galaxy S21", "Pixel 6", "9 Pro"]
features = ["5G, OLED-дисплей, тройная камера", "120Гц обновление, 8K видео", "Искусственный интеллект камеры, 5G", "Быстрая зарядка, 120Гц дисплей"]
ratings = [4, 3, 5, 4]

# Генерация нескольких отзывов
for brand, model, feature, rating in zip(brands, models, features, ratings):
filled_prompt = prompt.format(brand=brand, model=model, features=feature, rating=rating)
input_ids = tokenizer.encode(filled_prompt, return_tensors="pt")
output = model.generate(input_ids, max_length=200, num_return_sequences=1)
synthetic_review = tokenizer.decode(output[0], skip_special_tokens=True)
print(f"Отзыв для {brand} {model}:\n{synthetic_review}\n")

Этот подход позволяет создавать более контролируемые и разнообразные синтетические данные, адаптированные к конкретным сценариям или типам продуктов.

2.2 Обучение с несколькими примерами

Обучение с несколькими примерами предполагает предоставление LLM нескольких примеров желаемого формата и стиля вывода. Этот метод может значительно улучшить качество и последовательность сгенерированных данных.

few_shot_prompt = """
Сгенерируйте разговор между агентом (A) и клиентом (C) о проблеме с продуктом. Следуйте этому формату:
Здравствуйте, у меня проблемы с новыми наушниками. Правый наушник не работает.
Это SoundMax Pro 3000.
Да, я попробовал, но это не помогло.
Здравствуйте, я только что получил новый смартфон, но он не включается.
"""
# Генерация разговора
input_ids = tokenizer.encode(few_shot_prompt, return_tensors="pt")
output = model.generate(input_ids, max_length=500, num_return_sequences=1)
synthetic_conversation = tokenizer.decode(output[0], skip_special_tokens=True)
print(synthetic_conversation)

Этот подход помогает LLM понять желаемую структуру и стиль разговора, в результате чего получаются более реалистичные синтетические взаимодействия с клиентами.

2.3 Условная генерация

Условная генерация позволяет нам контролировать конкретные атрибуты сгенерированных данных. Это особенно полезно, когда нам нужно создать разнообразные наборы данных с определенными контролируемыми характеристиками.

from transformers import GPT2LMHeadModel, GPT2Tokenizer
import torch

model = GPT2LMHeadModel.from_pretrained(“gpt2-medium”)
tokenizer = GPT2Tokenizer.from_pretrained(“gpt2-medium”)

def generate_conditional_text(prompt, condition, max_length=100):
input_ids = tokenizer.encode(prompt, return_tensors=”pt”)
attention_mask = torch.ones(input_ids.shape, dtype=torch.long, device=input_ids.device)

# Кодирование условия
condition_ids = tokenizer.encode(condition, add_special_tokens=False, return_tensors=”pt”)

# Конкатенация условия с input_ids
input_ids = torch.cat([condition_ids, input_ids], dim=-1)
attention_mask = torch.cat([torch.ones(condition_ids.shape, dtype=torch.long, device=condition_ids.device), attention_mask], dim=-1)

output = model.generate(input_ids, attention_mask=attention_mask, max_length=max_length, num_return_sequences=1, no_repeat_ngram_size=2, do_sample=True, top_k=50, top_p=0.95, temperature=0.7)

return tokenizer.decode(output[0], skip_special_tokens=True)

# Генерация описаний продуктов с разными условиями
conditions = [“Люкс”, “Бюджетный”, “Экологически чистый”, “Высокотехнологичный”]
prompt = “Опишите рюкзак:”

Aayush Mittal

Я провел последние пять лет, погружаясь в увлекательный мир Machine Learning и Deep Learning. Моя страсть и экспертиза привели меня к участию в более чем 50 различных проектах по разработке программного обеспечения, с особым акцентом на AI/ML. Мое непрекращающееся любопытство также привело меня к Natural Language Processing, области, которую я с нетерпением жду возможности изучить более подробно.