Connect with us

RAFT – Подход к дообучению и RAG для доменсифицированного вопросоответного взаимодействия

Искусственный интеллект

RAFT – Подход к дообучению и RAG для доменсифицированного вопросоответного взаимодействия

mm

По мере расширения применения больших языковых моделей в специализированных доменах, необходимость в эффективных и результативных методах адаптации становится все более важной. Вступает RAFT (Дообучение с помощью извлечения), новый подход, который сочетает в себе сильные стороны извлечения и генерации (RAG) и дообучения, разработанный специально для задач вопросоответного взаимодействия в доменсифицированном контексте.

Проблема доменной адаптации

Хотя большие языковые модели предобучены на огромных объемах данных, их способность хорошо работать в специализированных доменах, таких как медицинские исследования, юридическая документация или корпоративные знания, часто ограничена. Это ограничение возникает потому, что данные предобучения могут не адекватно представлять нюансы и сложности этих специализированных доменов. Чтобы решить эту проблему, исследователи традиционно используют два основных метода: извлечение и генерацию (RAG) и дообучение.

Извлечение и генерация (RAG)

RAG

RAG

RAG — это метод, который позволяет большим языковым моделям получить доступ и использовать внешние источники знаний во время вывода.

Он достигает этого, интегрируя извлечение данных в реальном времени в генеративный процесс, что делает выводы модели более точными и актуальными. RAG состоит из трех основных шагов: извлечение, где собираются релевантные документы; генерация, где модель производит вывод на основе извлеченных данных; и дополнение, которое уточняет вывод дальше.

Процесс извлечения в RAG начинается с запроса пользователя. Большие языковые модели анализируют запрос и извлекают соответствующую информацию из внешних баз данных, представляя набор данных, из которого модель может черпать для формирования своих ответов. Фаза генерации затем синтезирует этот ввод в связный нарратив или ответ. Шаг дополнения уточняет генерацию, добавляя контекст или корректируя для связности и релевантности.

Модели RAG можно оценивать с помощью различных метрик, оценивающих их способность предоставлять точную, релевантную и актуальную информацию.

Дообучение

supervised-fine-tuning

supervised-fine-tuning

Дообучение, с другой стороны, предполагает адаптацию предобученной большой языковой модели к конкретной задаче или домену путем дальнейшего обучения на меньшем, задачеспецифичном наборе данных. Этот подход позволяет модели учиться закономерностям и согласовывать свои выводы с желаемой задачей или доменом. Хотя дообучение может улучшить производительность модели, оно часто не может эффективно включать внешние источники знаний или учитывать несовершенства извлечения во время вывода.

Подход RAFT

RAFT

RAFT

RAFT — это инновационный метод обучения, предназначенный для языковых моделей, чтобы повысить их производительность в доменсифицированных задачах, особенно для открытых вопросов. RAFT отличается от стандартного дообучения тем, что готовит обучающие данные, включающие вопросы с смесью релевантных и нерелевантных документов, а также ответы в стиле цепочки мыслей, полученные из релевантных текстов. Этот метод направлен на улучшение способности моделей не только вспоминать информацию, но и рассуждать и получать ответы из предоставленного контента.

По сути, RAFT дообучает языковые модели, чтобы они были более профессиональными в задачах, которые включают понимание прочитанного и извлечение знаний из набора документов. Обучаясь с помощью как “оракульных” документов (которые содержат ответ), так и “дистракторных” документов (которые не содержат), модель учится различать и использовать релевантную информацию более эффективно.

Я провел последние пять лет, погружаясь в увлекательный мир Machine Learning и Deep Learning. Моя страсть и экспертиза привели меня к участию в более чем 50 различных проектах по разработке программного обеспечения, с особым акцентом на AI/ML. Мое непрекращающееся любопытство также привело меня к Natural Language Processing, области, которую я с нетерпением жду возможности изучить более подробно.