Connect with us

Оценка больших языковых моделей: техническое руководство

Искусственный интеллект

Оценка больших языковых моделей: техническое руководство

mm
Evaluating Large Language Models

Большие языковые модели (LLM) như GPT-4, Claude и LLaMA стали非常 популярными. Благодаря их способности генерировать текст, похожий на человеческий, эти системы ИИ сейчас используются для всего, от создания контента до чат-ботов для обслуживания клиентов.

Но как мы знаем, что эти модели действительно хороши? С новыми LLM, которые постоянно объявляются, все утверждают, что они больше и лучше, как мы оцениваем и сравниваем их производительность?

В этом всестороннем руководстве мы исследуем лучшие методы оценки больших языковых моделей. Мы рассмотрим плюсы и минусы каждого подхода, когда они лучше всего применять и как вы можете использовать их в своих собственных тестах LLM.

Задачи-специфические метрики

Одним из наиболее простых способов оценить LLM является тестирование его на установленных задачах NLP с использованием стандартизированных метрик. Например:

Суммаризация

Для задач суммаризации часто используются метрики типа ROUGE (Recall-Oriented Understudy for Gisting Evaluation). ROUGE сравнивает резюме, сгенерированное моделью, с резюме, написанным человеком, подсчитывая совпадение слов или фраз.

Существует несколько вариантов ROUGE, каждый со своими плюсами и минусами:

  • ROUGE-N: Сравнивает совпадение n-грамм (последовательностей из N слов). ROUGE-1 использует униграммы (одиночные слова), ROUGE-2 использует биграммы и т. д. Преимущество заключается в том, что он учитывает порядок слов, но может быть слишком строгим.
  • ROUGE-L: Основан на наибольшей общей подпоследовательности (LCS). Более гибок в отношении порядка слов, но фокусируется на основных моментах.
  • ROUGE-W: Взвешивает совпадения LCS по их значимости. Попытка улучшить ROUGE-L.

В целом, метрики ROUGE быстры, автоматические и хорошо работают для ранжирования резюме систем. Однако они не измеряют связность или смысл. Резюме может получить высокий балл ROUGE и все равно быть бессмысленным.

Формула для ROUGE-N:

ROUGE-N=∑∈{Reference Summaries}∑∑�∈{Reference Summaries}∑

Где:

  • Count_{match}(gram_n) — количество n-грамм в обоих сгенерированном и ссылочном резюме.
  • Count(gram_n) — количество n-грамм в ссылочном резюме.

Например, для ROUGE-1 (униграмм):

  • Сгенерированное резюме: “Кошка села.”
  • Ссылочное резюме: “Кошка села на коврик.”
  • Пересекающиеся униграммы: “Кошка”, “села”
  • Балл ROUGE-1 = 3/5 = 0,6

ROUGE-L использует наибольшую общую подпоследовательность (LCS). Он более гибок в отношении порядка слов. Формула:

ROUGE-L=���(generated,reference)max(length(generated), length(reference))

Где LCS — длина наибольшей общей подпоследовательности.

ROUGE-W взвешивает совпадения LCS. Он учитывает значимость каждого совпадения в LCS.

Перевод

Для задач машинного перевода популярной метрикой является BLEU (Bilingual Evaluation Understudy). BLEU измеряет сходство между выходным переводом модели и профессиональным человеческим переводом, используя точность n-грамм и штраф за краткость.

Ключевые аспекты того, как работает BLEU:

  • Сравнивает совпадения n-грамм для n до 4 (униграмм, биграмм, триграмм, 4-грамм).
  • Вычисляет геометрическое среднее точности n-грамм.
  • Применяет штраф за краткость, если перевод намного короче ссылки.
  • Обычно варьируется от 0 до 1, где 1 — идеальное совпадение с ссылкой.

BLEU достаточно хорошо коррелирует с человеческими суждениями о качестве перевода. Но у него все еще есть ограничения:

  • Измеряет только точность против ссылок, а не полноту или F1.
  • С трудом справляется с творческими переводами, использующими разную лексику.
  • Уязвим для “игры” с переводческими трюками.

Другие метрики перевода, такие как METEOR и TER, пытаются улучшить слабости BLEU. Но в целом автоматические метрики не полностью отражают качество перевода.

Другие задачи

Помимо суммаризации и перевода, метрики типа F1, точности, MSE и другие можно использовать для оценки производительности LLM на задачах:

  • Классификация текста
  • Извлечение информации
  • Ответы на вопросы
  • Анализ настроений
  • Обнаружение грамматических ошибок

Преимущество задач-специфических метрик заключается в том, что оценка может быть полностью автоматизирована с использованием стандартизированных наборов данных, таких как SQuAD для QA и GLUE для ряда задач. Результаты можно легко отслеживать во времени, когда модели улучшаются.

Однако эти метрики узко фокусируются и не могут измерить общее качество языка. LLM, которые хорошо работают на метриках для одной задачи, могут не справиться с генерацией связного, логического и полезного текста в целом.

Исследовательские бенчмарки

Популярным способом оценки LLM является тестирование их на широком спектре исследовательских бенчмарков, охватывающих различные темы и навыки. Эти бенчмарки позволяют быстро тестировать модели в масштабе.

Некоторые известные бенчмарки включают:

  • SuperGLUE — сложный набор из 11 различных языковых задач.
  • GLUE — коллекция из 9 задач понимания предложений. Простее, чем SuperGLUE.
  • MMLU — 57 различных задач STEM, социальных наук и гуманитарных дисциплин. Тестирует знания и способность рассуждать.
  • Winograd Schema Challenge — задачи разрешения местоимений, требующие здравого смысла.
  • ARC — сложные задачи естественно-языкового рассуждения.
  • Hellaswag — здравый смысл рассуждений о ситуациях.
  • PIQA — физические вопросы, требующие диаграмм.

Оценивая модели на этих бенчмарках, исследователи могут быстро тестировать модели на их способность выполнять математические, логические, рассуждения, кодирование, здравый смысл и многое другое. Процент правильно ответов на вопросы становится метрикой бенчмарка для сравнения моделей.

Однако одной из основных проблем с бенчмарками является загрязнение обучающих данных. Многие бенчмарки содержат примеры, которые уже были видны моделям во время предварительного обучения. Это позволяет моделям “запоминать” ответы на конкретные вопросы и работать лучше, чем их реальные возможности.

Предпринимаются попытки “очистить” бенчмарки, удалив пересекающиеся примеры. Но это сложно сделать всесторонне, особенно когда модели могли видеть перефразированные или переведенные версии вопросов.

Итак, хотя бенчмарки могут быстро тестировать широкий спектр навыков, они не могут надежно измерить реальные способности рассуждения или избежать инфляции баллов из-за загрязнения. Необходимы дополнительные методы оценки.

Самооценка LLM

Одним из интересных подходов является оценка выходов одной LLM другой LLM. Идея заключается в использовании концепции “легче”:

  • Производство высококачественного выхода может быть сложной задачей для LLM.
  • Но определение того, является ли данный выход высококачественным, может быть более простой задачей.

Например, хотя LLM может испытывать трудности с генерацией фактического, связного абзаца с нуля, она может более легко оценить, имеет ли данный абзац логический смысл и соответствует ли контексту.

Итак, процесс следующий:

  1. Передайте входной запрос первой LLM для генерации выхода.
  2. Передайте входной запрос + сгенерированный выход второй “оценочной” LLM.
  3. Задайте оценочной LLM вопрос, чтобы оценить качество выхода. Например: “Имеет ли вышеуказанный ответ логический смысл?”

Этот подход быстро реализуется и автоматизирует оценку LLM. Но есть некоторые проблемы:

  • Производительность сильно зависит от выбора оценочной LLM и формулировки запроса.
  • Ограниченная сложностью исходной задачи. Оценка сложных рассуждений все еще сложна для LLM.
  • Может быть вычислительно дорогим, если использовать API-ориентированные LLM.

Самооценка особенно перспективна для оценки извлеченной информации в RAG (retrieval-augmented generation) системах. Дополнительные запросы LLM могут проверить, используется ли извлеченный контекст правильно.

В целом, самооценка показывает потенциал, но требует осторожности при реализации. Она дополняет, а не заменяет, человеческую оценку.

Человеческая оценка

Учитывая ограничения автоматических метрик и бенчмарков, человеческая оценка остается золотым стандартом для строгой оценки качества LLM.

Эксперты могут предоставить подробные качественные оценки:

  • Точность и фактическая правильность
  • Логика, рассуждения и здравый смысл
  • Связность, последовательность и читаемость
  • Уместность тона, стиля и голоса
  • Грамматичность и плавность
  • Креативность и нюансы

Чтобы оценить модель, людям предоставляется набор входных запросов и ответов LLM. Они оценивают качество ответов, часто используя шкалы оценок и рубрики.

Недостатком является то, что ручная человеческая оценка дорогая, медленная и трудна для масштабирования. Она также требует разработки стандартизированных критериев и обучения оценщиков применять их последовательно.

Некоторые исследователи исследовали творческие способы краудфандинга человеческой оценки LLM, используя турнирные системы, где люди ставят и оценивают матчи между моделями. Но покрытие все еще ограничено по сравнению с полной ручной оценкой.

Для деловых случаев, когда качество важнее, чем сырой масштаб, экспертное человеческое тестирование остается золотым стандартом, несмотря на его затраты. Это особенно верно для более рискованных применений LLM.

Заключение

Тщательная оценка больших языковых моделей требует использования разнообразного набора методов, а не полагаться на какой-либо один.

Сочетая автоматические подходы для скорости с тщательным человеческим надзором для точности, мы можем разработать надежные методы тестирования для больших языковых моделей. С помощью надежной оценки мы можем разблокировать огромный потенциал LLM, управляя их рисками ответственно.

Я провел последние пять лет, погружаясь в увлекательный мир Machine Learning и Deep Learning. Моя страсть и экспертиза привели меня к участию в более чем 50 различных проектах по разработке программного обеспечения, с особым акцентом на AI/ML. Мое непрекращающееся любопытство также привело меня к Natural Language Processing, области, которую я с нетерпением жду возможности изучить более подробно.