Искусственный интеллект

LLM-as-a-Judge: масштабируемое решение для оценки языковых моделей с использованием языковых моделей

опубликованный 14 ноября 2024

Аюш Миттал Mittal

LLM-как-судья для автоматизированной и масштабируемой оценки

Структура LLM-as-a-Judge — это масштабируемая, автоматизированная альтернатива человеческим оценкам, которые часто являются дорогостоящими, медленными и ограниченными объемом ответов, которые они могут реально оценить. Используя LLM для оценки результатов другого LLM, команды могут эффективно отслеживать точность, релевантность, тон и соблюдение определенных рекомендаций последовательным и воспроизводимым образом.

Оценка сгенерированного текста создает уникальные проблемы, выходящие за рамки традиционных показателей точности. Единый подсказка может привести к нескольким правильным ответам, различающимся по стилю, тону или формулировке, что затрудняет оценку качества с использованием простых количественных показателей.

Здесь выделяется подход LLM-as-a-Judge: он позволяет проводить тонкие оценки сложных качеств, таких как тон, полезность и связность разговора. Независимо от того, используются ли они для сравнения версий моделей или оценки результатов в реальном времени, LLM-судьи предлагают гибкий способ аппроксимации человеческого суждения, что делает их идеальным решением для масштабирования усилий по оценке в больших наборах данных и живом взаимодействии.

В этом руководстве мы рассмотрим, как работает программа LLM-as-a-Judge, различные типы оценок и практические шаги по её эффективному внедрению в различных контекстах. Мы расскажем, как устанавливать критерии, разрабатывать оценочные задания и организовывать обратную связь для постоянного совершенствования.

Концепция магистра права в качестве судьи

LLM-как-судья использует LLM для оценки текстовых выходов других систем ИИ. Действуя как беспристрастные оценщики, LLM могут оценивать сгенерированный текст на основе пользовательских критериев, таких как релевантность, краткость и тон. Этот процесс оценки похож на то, как если бы виртуальный оценщик проверял каждый выход в соответствии с конкретными рекомендациями, приведенными в подсказка. Это особенно полезная структура для приложений с большим объемом контента, где человеческий анализ нецелесообразен из-за ограничений по объему или времени.

Как это работает

LLM-as-a-Judge предназначен для оценки текстовых ответов на основе инструкций в оценочном запросе. Запрос обычно определяет такие качества, как полезность, релевантность или ясность, которые LLM должен учитывать при оценке вывода. Например, запрос может попросить LLM решить, является ли ответ чат-бота «полезным» или «бесполезным», с указаниями о том, что подразумевает каждая метка.

Радиус корня LLM использует свои внутренние знания и изученные языковые шаблоны для оценки предоставленного текста, сопоставляя критерии подсказки с качествами ответа. Устанавливая четкие ожидания, оценщики могут адаптировать фокус LLM для захвата тонких качеств, таких как вежливость или конкретность, которые в противном случае было бы трудно измерить. В отличие от традиционных метрик оценки, LLM-as-a-Judge обеспечивает гибкое, высокоуровневое приближение человеческого суждения, которое можно адаптировать к различным типам контента и потребностям оценки.

Типы оценки

Парное сравнение: В этом методе LLM получает два ответа на одну и ту же подсказку и просит выбрать «лучший» ответ на основе таких критериев, как релевантность или точность. Этот тип оценки часто используется в A/B-тестировании, где разработчики сравнивают разные версии модели или конфигурации подсказок. Прося LLM оценить, какой ответ работает лучше в соответствии с определенными критериями, парное сравнение предлагает простой способ определения предпочтений в выходных данных модели.
Прямой подсчет очков: Прямая оценка — это оценка без ссылок, где LLM оценивает один выходной результат на основе предопределенных качеств, таких как вежливость, тон или ясность. Прямая оценка хорошо работает как в офлайн-, так и в онлайн-оценках, предоставляя способ непрерывного мониторинга качества в различных взаимодействиях. Этот метод полезен для отслеживания постоянных качеств с течением времени и часто используется для мониторинга ответов в реальном времени в процессе производства.
Оценка на основе референтных данных: Этот метод вводит дополнительный контекст, такой как справочный ответ или вспомогательный материал, по которому оценивается сгенерированный ответ. Это обычно используется в Поисково-дополненная генерация (RAG) настройки, где ответ должен тесно соответствовать полученным знаниям. Сравнивая вывод с эталонным документом, этот подход помогает оценить фактическую точность и соответствие определенному контенту, например, проверку на галлюцинации в сгенерированном тексте.

Случаи использования

LLM-as-a-Judge можно адаптировать к различным сферам применения:

ЧатБоты: Оценка ответов по таким критериям, как релевантность, тон и полезность, для обеспечения постоянного качества.
Суммирование: Оценка резюме на предмет краткости, ясности и соответствия исходному документу для сохранения точности.
Генерация кода: Проверка фрагментов кода на правильность, читаемость и соответствие заданным инструкциям или передовым практикам.

Этот метод может использоваться в качестве автоматизированного оценщика для улучшения этих приложений путем постоянного мониторинга и улучшения производительности модели без исчерпывающего человеческого контроля.

Подготовка к получению степени судьи магистра права (LLM) – пошаговое руководство

Создание установки оценки на основе LLM требует тщательного планирования и четких указаний. Выполните следующие шаги, чтобы создать надежную систему оценки LLM-as-aJudge:

Шаг 1: Определение критериев оценки

Начните с определения конкретных качеств, которые вы хотите, чтобы LLM оценил. Ваши критерии оценки могут включать такие факторы, как:

Релевантность: : Соответствует ли ответ непосредственно вопросу или подсказке?
Tone: Соответствует ли тон контексту (например, профессиональный, дружелюбный, лаконичный)?
точность: Является ли предоставленная информация фактически верной, особенно в ответах, основанных на знаниях?

Например, при оценке чат-бота вы можете отдать приоритет релевантности и полезности, чтобы гарантировать, что он дает полезные ответы по теме. Каждый критерий должен быть четко определен, поскольку нечеткие указания могут привести к непоследовательным оценкам. Определение простых бинарных или масштабируемых критериев (например, «релевантный» против «нерелевантный» или шкалы Лайкерта для полезности) может улучшить последовательность.

Шаг 2: Подготовка набора данных для оценки

Для калибровки и тестирования судьи LLM вам понадобится репрезентативный набор данных с маркированными примерами. Существует два основных подхода к подготовке этого набора данных:

Производственные данные: Используйте данные из исторических выходов вашего приложения. Выберите примеры, которые представляют типичные ответы, охватывающие диапазон уровней качества для каждого критерия.
Синтетические данные: Если производственные данные ограничены, вы можете создать синтетические примеры. Эти примеры должны имитировать ожидаемые характеристики отклика и охватывать крайние случаи для более полного тестирования.

Получив набор данных, вручную разметьте его в соответствии с вашими критериями оценки. Этот размеченный набор данных будет служить вам основополагающим критерием, позволяя вам оценить последовательность и точность судьи LLM.

Шаг 3: Создание эффективных подсказок

Быстрый инжиниринг имеет решающее значение для эффективного руководства судьей LLM. Каждая подсказка должна быть четкой, конкретной и соответствовать вашим критериям оценки. Ниже приведены примеры для каждого типа оценки:

Запрос на парное сравнение

 
You will be shown two responses to the same question. Choose the response that is more helpful, relevant, and detailed. If both responses are equally good, mark them as a tie.

Question: [Insert question here]
Response A: [Insert Response A]
Response B: [Insert Response B]

Output: "Better Response: A" or "Better Response: B" or "Tie"

Прямой подсчет очков

 
Evaluate the following response for politeness. A polite response is respectful, considerate, and avoids harsh language. Return "Polite" or "Impolite."

Response: [Insert response here]

Output: "Polite" or "Impolite"

Подсказка для оценки на основе ссылок

 
Compare the following response to the provided reference answer. Evaluate if the response is factually correct and conveys the same meaning. Label as "Correct" or "Incorrect."

Reference Answer: [Insert reference answer here]
Generated Response: [Insert generated response here]

Output: "Correct" or "Incorrect"

Создание подсказок таким образом уменьшает двусмысленность и позволяет судье LLM точно понимать, как оценивать каждый ответ. Чтобы еще больше повысить ясность подсказок, ограничьте область каждой оценки одним или двумя качествами (например, релевантностью и детализацией) вместо того, чтобы смешивать несколько факторов в одной подсказке.

Шаг 4: Тестирование и итерация

После создания подсказки и набора данных оцените судью LLM, запустив его на вашем маркированном наборе данных. Сравните выходные данные LLM с метками истинности, которые вы назначили, чтобы проверить согласованность и точность. Ключевые показатели для оценки включают:

Точность: Процент правильных положительных оценок.
Recall: Процент положительных результатов, правильно определенных LLM.
точность: Общий процент правильных оценок.

Тестирование помогает выявить любые несоответствия в работе судьи LLM. Например, если судья часто ошибочно маркирует полезные ответы как бесполезные, вам может потребоваться доработать подсказку для оценки. Начните с небольшой выборки, затем увеличивайте размер набора данных по мере итерации.

На этом этапе рассмотрите возможность экспериментов с различными структурами подсказок или использования нескольких LLM для перекрестной проверки. Например, если одна модель имеет тенденцию быть многословной, попробуйте протестировать ее с более краткой моделью LLM, чтобы увидеть, соответствуют ли результаты вашей истинной информации. Изменения подсказок могут включать корректировку меток, упрощение языка или даже разбиение сложных подсказок на более мелкие, более управляемые подсказки.

Реализация кода: применение LLM в качестве судьи на практике

В этом разделе вы узнаете, как настроить и внедрить фреймворк LLM-as-a-Judge с использованием Python и Обнимая лицоВ этом разделе будет рассмотрен весь процесс — от настройки клиента LLM до обработки данных и проведения оценок.

Настройка вашего клиента LLM

Чтобы использовать LLM в качестве оценщика, сначала необходимо настроить его для выполнения задач оценки. Это включает в себя настройку клиента модели LLM для выполнения задач вывода и оценки с использованием предварительно обученной модели, доступной в хабе Hugging Face. Здесь мы будем использовать huggingface_hub для упрощения настройки.

 
import pandas as pd
from huggingface_hub import InferenceClient

# Initialize the LLM client with a specific model repository
repo_id = "mistralai/Mixtral-8x7B-Instruct-v0.1"
llm_client = InferenceClient(model=repo_id, timeout=120)

В этой настройке модель инициализируется с ограничением по времени ожидания для обработки расширенных запросов оценки. Обязательно замените repo_id с правильным идентификатором репозитория для выбранной вами модели.

Загрузка и подготовка данных

После настройки клиента LLM следующим шагом будет загрузка и подготовка данных для оценки. Мы будем использовать pandas для манипулирования данными и datasets библиотека для загрузки любых уже существующих наборов данных. Ниже мы готовим небольшой набор данных, содержащий вопросы и ответы для оценки.

 
import pandas as pd
from datasets import load_dataset

# Load a sample dataset (replace with your dataset)
data = load_dataset("your_dataset_id")["train"]

# Extract relevant fields for evaluation
df = pd.DataFrame({
    'question': data['question_field'],
    'answer': data['answer_field']
})
df.head()

Убедитесь, что набор данных содержит поля, соответствующие вашим критериям оценки, например пары вопрос-ответ или ожидаемые форматы вывода.

Оценка с судьей LLM

После загрузки и подготовки данных мы можем создать функции для оценки ответов. Этот пример демонстрирует функцию, которая оценивает релевантность и точность ответа на основе предоставленной пары вопрос-ответ.

 
def evaluate_answer(question, answer):
    # Craft a prompt to evaluate relevance and accuracy
    prompt = f"Evaluate the response's relevance and accuracy:\nQuestion: {question}\nAnswer: {answer}"
    result = llm_client.text_generation(prompt=prompt, max_new_tokens=50)
    return result

# Test the function with an example
question = "How does the FED's actions impact inflation?"
answer = "When the FED buys bonds, it can lead to..."
evaluation = evaluate_answer(question, answer)
print("LLM Evaluation:", evaluation)

Эта функция отправляет пару вопрос-ответ в LLM, который отвечает суждением на основе оценочной подсказки. Вы можете адаптировать эту подсказку к другим оценочным задачам, изменив критерии, указанные в подсказке, такие как «релевантность и тон» или «краткость».

Реализация парных сравнений

В случаях, когда вы хотите сравнить два модельных вывода, LLM может выступать в качестве судьи между ответами. Мы настраиваем подсказку оценки, чтобы указать LLM выбрать лучший ответ из двух на основе указанных критериев.

 
def evaluate_pairwise(question, answer_a, answer_b):
    # Craft a prompt for pairwise comparison
    prompt = (
        f"Given the question below, determine which response is more relevant and detailed.\n\n"
        f"Question: {question}\n\n"
        f"Response A: {answer_a}\n\n"
        f"Response B: {answer_b}\n\n"
        "Choose the better response: A or B."
    )
    result = llm_client.text_generation(prompt=prompt, max_new_tokens=10)
    return result

# Example pairwise comparison
question = "What is the impact of the FED's bond-buying actions?"
answer_a = "The FED's actions can increase the money supply."
answer_b = "The FED's bond purchases generally raise inflation."
comparison = evaluate_pairwise(question, answer_a, answer_b)
print("Better Response:", comparison)

Эта функция обеспечивает практичный способ оценки и ранжирования ответов, что особенно полезно в сценариях A/B-тестирования для оптимизации ответов модели.

Практические советы и задачи

Хотя структура LLM-as-a-Judge является мощным инструментом, несколько практических соображений могут помочь улучшить ее эффективность и сохранить точность с течением времени.

Лучшие практики для оперативного создания

Создание эффективных подсказок — ключ к точным оценкам. Вот несколько практических советов:

Избегайте предвзятости: LLM могут демонстрировать предвзятость предпочтений, основанную на структуре подсказки. Избегайте предлагать «правильный» ответ в подсказке и убедитесь, что вопрос нейтрален.
Уменьшить предвзятость многословия: LLM могут предпочесть более развернутые ответы. Укажите краткость, если развернутость не является критерием.
Минимизировать смещение позиции: При парных сравнениях периодически рандомизируйте порядок ответов, чтобы уменьшить позиционное смещение в сторону первого или второго ответа.

Например, вместо того, чтобы сказать: «Выберите лучший ответ ниже», укажите критерии напрямую: «Выберите ответ, который дает четкое и краткое объяснение».

Ограничения и стратегии смягчения последствий

Хотя судьи LLM могут воспроизводить человеческие суждения, у них также есть ограничения:

Сложность задачи: Некоторые задачи, особенно требующие математических вычислений или глубокого мышления, могут превышать возможности LLM. Для задач, требующих точных фактических знаний, может быть полезно использовать более простые модели или внешние валидаторы.
Непреднамеренные предубеждения: Судьи LLM могут демонстрировать предвзятость, основанную на формулировке, известную как «позиционная предвзятость» (предпочтение ответов в определенных позициях) или «предвзятость самоутверждения» (предпочтение ответов, похожих на предыдущие). Чтобы смягчить это, избегайте позиционных предположений и отслеживайте тенденции оценки, чтобы выявлять несоответствия.
Неоднозначность вывода: Если LLM дает неоднозначные оценки, рассмотрите возможность использования бинарных подсказок, требующих классификации «да/нет» или «положительно/отрицательно» для более простых задач.

Заключение

Фреймворк LLM-as-a-Judge предлагает гибкий, масштабируемый и экономически эффективный подход к оценке текстовых выходов, сгенерированных ИИ. При правильной настройке и продуманном дизайне подсказок он может имитировать человеческое суждение в различных приложениях, от чат-ботов до сумматоров и систем обеспечения качества.

Благодаря тщательному мониторингу, оперативному повторению и пониманию ограничений команды могут гарантировать, что их судьи LLM будут соответствовать реальным потребностям заявок.

Переосмысление законов масштабирования в разработке ИИ

Не пропустите

DeepL производит революцию в области языкового ИИ, запуская DeepL Voice для многоязычного общения в реальном времени

Аюш Миттал

Последние пять лет я погружался в увлекательный мир машинного обучения и глубокого обучения. Моя страсть и опыт позволили мне принять участие в более чем 50 различных проектах по разработке программного обеспечения, уделяя особое внимание AI/ML. Мое постоянное любопытство также привлекло меня к обработке естественного языка, области, которую я очень хочу исследовать дальше.

Unite.ИИ