Лидеры мысли
Правда о синтетических данных: почему человеческий опыт имеет решающее значение для успеха в LLM

Разработчики LLM все чаще обращаются к синтетическим данным для ускорения разработки и сокращения расходов. Исследователи, стоящие за несколькими моделями высшего уровня, такими как LLama 3, Qwen 2 и DeepSeek R1, упоминали в исследовательских работах об использовании синтетических данных для обучения своих моделей. Со стороны это выглядит как идеальное решение: бесконечный источник информации для ускорения разработки и сокращения расходов. Но это решение имеет скрытые издержки, которые руководители бизнеса не могут игнорировать.
Проще говоря, синтетические данные генерируется моделями ИИ для создания искусственных наборов данных для обучения, тонкой настройки и оценки LLM и агентов ИИ. По сравнению с традиционным человеческим комментированием, он позволяет быстро масштабировать конвейер данных, что имеет важное значение в быстро меняющейся и конкурентной среде разработки ИИ.
У предприятий могут быть и другие причины использовать «поддельные» данные, например, защита конфиденциальной или конфиденциальной информации в сфере финансов или здравоохранения путем создания анонимных версий. Синтетические данные также являются хорошей заменой, когда закрытые данные недоступны, например, перед запуском продукта или когда данные принадлежат внешним клиентам.
Но произведут ли синтетические данные революцию в развитии ИИ? Короткий ответ — условно да: у них большой потенциал, но они также могут подвергать LLM и агентов критическим уязвимостям без строгого человеческого контроля. Производители LLM и разработчики агентов ИИ могут обнаружить, что модели ИИ, обученные на недостаточно проверенных синтетических данных, могут генерировать неточные или предвзятые результаты, создавать репутационные кризисы и приводить к несоблюдению отраслевых и этических стандартов. Инвестиции в человеческий контроль для уточнения синтетических данных являются прямыми инвестициями в защиту конечного результата, поддержание доверия заинтересованных сторон и обеспечение ответственного принятия ИИ.
С помощью человеческого ввода синтетические данные могут быть преобразованы в высококачественные данные для обучения. Существует три важных причины для уточнения сгенерированных данных перед их использованием для обучения ИИ: заполнить пробелы в знаниях исходной модели, улучшить качество данных и сократить размер выборки, а также соответствовать человеческим ценностям.
Нам необходимо зафиксировать уникальные знания
Синтетические данные в основном генерируются LLM, которые обучаются на общедоступных интернет-источниках, что создает неотъемлемое ограничение. Публичный контент редко отражает практические, практические знания, используемые в реальной работе. Такие действия, как разработка маркетинговой кампании, подготовка финансового прогноза или проведение анализа рынка, обычно являются частными и не документируются в сети. Кроме того, источники, как правило, отражают язык и культуру, ориентированные на США, что ограничивает глобальное представительство.
Чтобы преодолеть эти ограничения, мы можем привлечь экспертов для создания выборок данных в областях, которые, как мы подозреваем, модель генерации синтетических данных не может охватить. Возвращаясь к корпоративному примеру, если мы хотим, чтобы наша окончательная модель эффективно обрабатывала финансовые прогнозы и анализ рынка, данные для обучения должны включать реалистичные задачи из этих областей. Важно выявить эти пробелы и дополнить синтетические данные выборками, созданными экспертами.
Эксперты часто привлекаются на ранних этапах проекта для определения объема работы. Это включает в себя создание таксономии, которая определяет конкретные области знаний, в которых должна работать модель. Например, в здравоохранении общая медицина может быть разделена на подтемы, такие как питание, сердечно-сосудистое здоровье, аллергии и т. д. Модель, ориентированная на здоровье, должна быть обучена во всех подтемах, которые она должна охватывать. После того, как таксономия определена экспертами в области здравоохранения, LLM могут использоваться для быстрого и масштабного создания точек данных с типичными вопросами и ответами. Эксперты-люди по-прежнему необходимы для проверки, исправления и улучшения этого контента, чтобы гарантировать, что он не только точный, но также безопасный и соответствующий контексту. Этот процесс обеспечения качества необходим в приложениях с высоким уровнем риска, таких как здравоохранение, для обеспечения точности данных и смягчения потенциального вреда.
Качество превыше количества: повышение эффективности модели за счет меньшего количества лучших образцов
Когда эксперты предметной области создают данные для обучения LLM и агентов ИИ, они создают таксономии для наборов данных, пишут подсказки, разрабатывают идеальные ответы или моделируют конкретную задачу. Все этапы тщательно прорабатываются в соответствии с назначением модели, а качество гарантируется экспертами в соответствующих областях.
Генерация синтетических данных не полностью воспроизводит этот процесс. Она опирается на сильные стороны базовой модели, используемой для создания данных, и полученное качество часто не соответствует качеству данных, курируемых человеком. Это означает, что синтетические данные часто требуют гораздо больших объемов для достижения удовлетворительных результатов, что приводит к увеличению вычислительных затрат и времени разработки.
В сложных областях есть нюансы, которые могут заметить только эксперты-люди, особенно с выбросами или пограничными случаями. Данные, курируемые людьми, постоянно обеспечивают лучшую производительность модели, даже при значительно меньших наборах данных. Стратегически интегрируя человеческий опыт в процесс создания данных, мы можем сократить количество образцов, необходимых для эффективной работы модели.
По нашему опыту, лучшим способом решения этой проблемы является привлечение экспертов в предметной области к созданию синтетических наборов данных. Когда эксперты разрабатывают правила генерации данных, определяют таксономии данных и проверяют или корректируют сгенерированные данные, конечное качество данных намного выше. Такой подход позволил нашим клиентам достичь хороших результатов, используя меньшее количество выборок данных, что привело к более быстрому и эффективному пути к производству.
Укрепление доверия: незаменимая роль людей в обеспечении безопасности и согласованности ИИ
Автоматизированные системы не могут предвидеть все уязвимости или гарантировать соответствие человеческим ценностям, особенно в крайних случаях и неоднозначных сценариях. Эксперты-люди-рецензенты играют решающую роль в выявлении возникающих рисков и обеспечении этических результатов перед развертыванием. Это уровень защиты, который ИИ, по крайней мере на данный момент, не может полностью обеспечить самостоятельно.
Поэтому для создания сильного набора данных red teaming одних синтетических данных будет недостаточно. Важно привлечь экспертов по безопасности на ранних этапах процесса. Они могут помочь составить карту типов потенциальных атак и направить структуру набора данных. Затем LLM могут быть использованы для генерации большого объема примеров. После этого эксперты необходимы для проверки и уточнения данных, чтобы гарантировать их реалистичность, высокое качество и полезность для тестирования систем ИИ. Например, LLM может генерировать тысячи стандартных хакерских подсказок, но эксперт по безопасности человека может создавать новые атаки «социальной инженерии», которые используют тонкие психологические предубеждения — креативную угрозу, которую автоматизированные системы с трудом изобретают самостоятельно.
Был достигнут значительный прогресс в согласовании LLM с использованием автоматизированной обратной связи. В статье RLAIF против RLHF: масштабирование обучения с подкреплением на основе обратной связи от человека с помощью обратной связи от ИИ" Исследователи показывают, что выравнивание на основе ИИ может во многих случаях работать сопоставимо с обратной связью человека. Однако, хотя обратная связь ИИ улучшается по мере совершенствования моделей, наш опыт показывает, что RLAIF все еще испытывает трудности в сложных областях и с пограничными случаями или выбросами, в областях, где производительность может быть критичной в зависимости от приложения. Эксперты-люди более эффективны в обработке нюансов задач и контекста, что делает их более надежными для выравнивания.
Агенты ИИ также получают выгоду от автоматизированного тестирования для решения широкого спектра рисков безопасности. Виртуальные среды тестирования используют сгенерированные данные для моделирования поведения агентов, например, взаимодействия с онлайн-инструментами и выполнения действий на веб-сайтах. Чтобы максимизировать охват тестирования в реалистичных сценариях, человеческий опыт является неотъемлемой частью разработки тестовых случаев, проверки результатов автоматизированных оценок и отчета об уязвимостях.
Будущее синтетических данных
Синтетические данные — это очень ценный метод разработки больших языковых моделей, особенно когда масштабирование и быстрое развертывание имеют решающее значение в сегодняшнем быстро меняющемся ландшафте. Хотя в самих синтетических данных нет фундаментальных недостатков, они требуют доработки, чтобы раскрыть весь свой потенциал и предоставить наибольшую ценность. Гибридный подход, сочетающий автоматическую генерацию данных с человеческим опытом, — это очень эффективный метод разработки эффективных и надежных моделей, поскольку окончательная производительность модели зависит больше от качества данных, чем от общего объема. Этот интегрированный процесс, использующий ИИ для масштабирования и человеческих экспертов для проверки, создает более эффективные модели с улучшенным соответствием безопасности, что необходимо для завоевания доверия пользователей и обеспечения ответственного развертывания.