Artificial Intelligence

Оценка больших языковых моделей: техническое руководство

опубликованный

3 меc. назад

29 января 2024

Популярность больших языковых моделей (LLM), таких как GPT-4, Claude и LLaMA, резко возросла. Благодаря своей способности генерировать текст, впечатляюще похожий на человеческий, эти системы искусственного интеллекта теперь используются для всего: от создания контента до чат-ботов для обслуживания клиентов.

Но как мы узнаем, действительно ли эти модели хороши? Поскольку постоянно объявляются новые LLM, и все они заявляют, что они больше и лучше, как мы можем оценить и сравнить их эффективность?

В этом подробном руководстве мы рассмотрим основные методы оценки больших языковых моделей. Мы рассмотрим плюсы и минусы каждого подхода, когда их лучше всего применять и как вы можете использовать их в своем собственном тестировании LLM.

Метрики, специфичные для задачи

Один из самых простых способов оценить LLM — протестировать его на установленных задачах НЛП с использованием стандартизированных показателей. Например:

Суммирование

Для задач обобщения используются такие метрики, как RED (Дублер, ориентированный на отзыв, для оценки гистинга). ROUGE сравнивает резюме, созданное с помощью модели, с «эталонным» резюме, написанным человеком, подсчитывая перекрытие слов или фраз.

Существует несколько вкусов ROUGE, каждый из которых имеет свои плюсы и минусы:

РУЖ-Н: Сравнивает перекрытие n-грамм (последовательностей из N слов). РУЖ-1 использует униграммы (отдельные слова), РУЖ-2 использует биграммы и т. д. Преимущество заключается в том, что он фиксирует порядок слов, но может быть слишком строгим.
РУЖ-Л: На основе самой длинной общей подпоследовательности (LCS). Более гибкий порядок слов, но фокусируется на основных моментах.
РУЖ-Ж: Веса LCS совпадают по значимости. Попытки улучшить ROUGE-L.

В целом, метрики ROUGE работают быстро, автоматически и хорошо подходят для составления сводок рейтинговой системы. Однако они не измеряют связность или смысл. Резюме может получить высокую оценку ROUGE, но при этом оставаться бессмысленным.

Формула ROUGE-N:

$РУЖ-Н = Σ ^{s \in {Сводные ссылки}} Σ ^{g r a m n \in s} C o u n t ( g r a m ^{n} ) Σ ^{s \in {Сводные ссылки}} Σ ^{g r a m n \in s} C o u n t ^{ma t c h} ( g r a m ^{n} )$

Где:

Count_{match}(gram_n) — это количество n-грамм как в сгенерированной, так и в справочной сводке.
Count(gram_n) — количество n-грамм в справочной сводке.

Например, для РУМЯ-1 (униграммы):

Сгенерированное резюме: «Кот сидел».
Краткое содержание справки: «Кот сел на коврик».
Перекрывающиеся униграммы: «The», «cat», «sat».
Оценка ROUGE-1 = 3/5 = 0.6

РУЖ-Л использует самую длинную общую подпоследовательность (LCS). Это более гибко с порядком слов. Формула:

$РУЖ-Л = Макс (длина (сгенерировано), длина (ссылка)) L CS ( генерируется , ссылка )$

где LCS — длина самой длинной общей подпоследовательности.

РУЖ-W взвешивает совпадения LCS. Он учитывает значимость каждого матча в LCS.

Переводы

Для задач машинного перевода СИНИЙ (Двуязычное исследование по оценке) — популярный показатель. BLEU измеряет сходство между выходным переводом модели и профессиональным человеческим переводом, используя точность в n-граммах и штраф за краткость.

Ключевые аспекты работы BLEU:

Сравнивает совпадения n-грамм для n до 4 (униграммы, биграммы, триграммы, 4-граммы).
Вычисляет среднее геометрическое точности n-грамм.
Применяет штраф за краткость, если перевод намного короче ссылки.
Обычно находится в диапазоне от 0 до 1, где 1 соответствует идеальному значению.

BLEU достаточно хорошо коррелирует с человеческими суждениями о качестве перевода. Но у него все еще есть ограничения:

Точность измеряется только по ссылкам, а не по отзыву или F1.
Борется с творческими переводами, используя разные формулировки.
Склонен к «играм» с переводческими трюками.

Другие показатели перевода, такие как METEOR и TER, пытаются устранить недостатки BLEU. Но в целом автоматические показатели не полностью отражают качество перевода.

Другие задачи

Помимо обобщения и перевода, такие показатели, как F1, точность, MSE и другие, можно использовать для оценки эффективности LLM при выполнении таких задач, как:

Классификация текста
Извлечение информации
Ответ на вопрос
Анализ настроений
Обнаружение грамматических ошибок

Преимущество метрик для конкретных задач заключается в том, что оценку можно полностью автоматизировать с использованием стандартизированных наборов данных, таких как команда для контроля качества и КЛЕЙ эталон для ряда задач. Результаты можно легко отслеживать с течением времени по мере совершенствования моделей.

Однако эти показатели узконаправлены и не могут измерить общее качество языка. LLM, которые хорошо справляются с метриками для одной задачи, могут не сгенерировать связный, логичный и полезный текст в целом.

Тесты для исследований

Популярный способ оценить LLM — проверить их на соответствие широким исследовательским критериям, охватывающим различные темы и навыки. Эти тесты позволяют быстро тестировать модели в масштабе.

Некоторые известные тесты включают в себя:

Супер клей – Сложный набор из 11 разнообразных языковых заданий.
КЛЕЙ – Сборник заданий на понимание из 9 предложений. Проще, чем SuperGLUE.
ММЛУ – 57 различных задач по STEM, общественным и гуманитарным наукам. Проверяет знания и способность рассуждать.
Вызов схемы Винограда – Проблемы с разрешением местоимений, требующие рассуждений, основанных на здравом смысле.
ARC – Сложные задачи на рассуждение на естественном языке.
Хелласвог – Рассуждения о ситуациях, основанные на здравом смысле.
ПИКА – Вопросы по физике, требующие диаграмм.

Оценивая подобные тесты, исследователи могут быстро проверить модели на предмет их способности выполнять математические, логические, рассуждения, кодирование, здравый смысл и многое другое. Процент правильных ответов на вопросы становится эталонным показателем для сравнения моделей.

Однако основная проблема с эталонами заключается в том, что загрязнение обучающих данных. Многие тесты содержат примеры, которые модели уже видели во время предварительного обучения. Это позволяет моделям «запоминать» отвечает на конкретные вопросы и работает лучше, чем их истинные возможности.

Предпринимаются попытки «Дезинфицируйте» ориентиры, удаляя дублирующиеся примеры. Но сделать это комплексно сложно, особенно если модели могли видеть перефразированные или переведенные версии вопросов.

Таким образом, хотя тесты могут эффективно проверять широкий набор навыков, они не могут надежно измерить истинные способности к рассуждению или избежать завышения оценок из-за загрязнения. Необходимы дополнительные методы оценки.

LLM Самооценка

Интригующий подход заключается в том, чтобы один LLM оценил результаты другого LLM. Идея состоит в том, чтобы использовать концепцию «более простых» задач:

Производство высококачественной продукции может быть затруднено для LLM.
Но определить, является ли данный результат высококачественным, может быть более простой задачей.

Например, хотя LLM может изо всех сил пытаться создать последовательный абзац с нуля, ему легче судить, имеет ли данный абзац логический смысл и соответствует ли контекст.

Итак, процесс такой:

Передайте приглашение на ввод первому LLM для генерации вывода.
Передайте приглашение на ввод + сгенерированный вывод второму «оценщику» LLM.
Задайте оценщику LLM вопрос, чтобы оценить качество продукции. например: «Имеет ли приведенный выше ответ логический смысл?»

Этот подход быстро реализуется и автоматизирует оценку LLM. Но есть некоторые проблемы:

Результативность во многом зависит от выбора оценщика LLM и подсказок.
Ограничено сложностью исходной задачи. Оценка сложных рассуждений для студентов LLM по-прежнему сложна.
Может оказаться дорогостоящим в вычислительном отношении при использовании LLM на основе API.

Самооценка особенно перспективна для оценки полученной информации в RAG (генерация с расширенным поиском) системы. Дополнительные запросы LLM могут проверить, правильно ли используется полученный контекст.

В целом самооценка демонстрирует потенциал, но требует осторожности при реализации. Она дополняет, а не заменяет человеческую оценку.

Человеческая оценка

Учитывая ограничения автоматизированных показателей и тестов, человеческая оценка по-прежнему остается золотым стандартом строгой оценки качества LLM.

Эксперты могут предоставить подробную качественную оценку по:

Точность и фактическая правильность
Логика, рассуждения и здравый смысл
Согласованность, последовательность и читабельность
Соответствие тона, стиля и голоса
Грамматичность и беглость
Креативность и нюансы

Для оценки модели людям предоставляется набор входных подсказок и ответов, генерируемых LLM. Они оценивают качество ответов, часто используя рейтинговые шкалы и рубрики.

Обратной стороной является то, что ручная оценка человеком обходится дорого, медленно и ее трудно масштабировать. Это также требует разработки стандартизированных критериев и обучения оценщиков их последовательному применению.

Некоторые исследователи изучили творческие способы краудфандинга оценок LLM среди людей, используя системы турнирного типа, где люди делают ставки и оценивают совпадения между моделями. Однако охват по-прежнему ограничен по сравнению с полностью ручными оценками.

Для случаев использования в бизнесе, где качество имеет большее значение, чем исходный масштаб, экспертное тестирование на людях остается золотым стандартом, несмотря на его стоимость. Это особенно актуально для более рискованных применений LLM.

Заключение

Тщательная оценка больших языковых моделей требует использования разнообразного набора дополнительных методов, а не использования какого-либо одного метода.

Сочетая автоматизированные подходы для повышения скорости со строгим человеческим контролем точности, мы можем разработать надежные методологии тестирования для больших языковых моделей. Благодаря надежной оценке мы можем раскрыть огромный потенциал программ LLM, одновременно ответственно управляя своими рисками.

Похожие темы:AI GPT Лама метрика

Навигация в эпоху дезинформации: аргументы в пользу генеративного искусственного интеллекта, ориентированного на данные

Не пропустите

Будущее бессерверного вывода для больших языковых моделей

Аюш Миттал

Последние пять лет я погружался в увлекательный мир машинного обучения и глубокого обучения. Моя страсть и опыт позволили мне принять участие в более чем 50 различных проектах по разработке программного обеспечения, уделяя особое внимание AI/ML. Мое постоянное любопытство также привлекло меня к обработке естественного языка, области, которую я очень хочу исследовать дальше.

Unite.ИИ

Оценка больших языковых моделей: техническое руководство

Artificial Intelligence

Оценка больших языковых моделей: техническое руководство

Оглавление