Лидеры мнений

Тесты для Больших Языковых Моделей

Published August 28, 2024

Updated April 27, 2026

Irina Barskaya, PhD, Head Data Scientist at Yandex

Поймите роль и ограничения тестов в оценке производительности Больших Языковых Моделей. Изучите методы разработки прочных Больших Языковых Моделей.

Большие Языковые Модели в последние годы приобрели огромную популярность. Я имею в виду, вы видели это. Исключительная способность Больших Языковых Моделей понимать команды человеческого языка сделала их идеальным интегрированием для бизнеса, поддерживающим критически важные рабочие процессы и автоматизирующим задачи до максимальной эффективности. Плюс, помимо понимания среднего пользователя, есть еще многое, что могут сделать Большие Языковые Модели. И по мере того, как наша зависимость от них растет, мы действительно должны уделять больше внимания мерам, обеспечивающим необходимую точность и надежность. Это глобальная задача, которая касается целых учреждений, но в области бизнеса есть уже несколько тестов, которые можно использовать для оценки производительности Больших Языковых Моделей в различных областях. Эти тесты могут проверить способности модели в понимании, логическом построении, математике и т. д., и результаты определяют, готова ли Большая Языковая Модель для бизнес-развертывания.

В этой статье я собрал всесторонний список наиболее популярных тестов для оценки Больших Языковых Моделей. Мы обсудим каждый тест подробно и увидим, как разные Большие Языковые Модели справляются с критериями оценки. Но сначала давайте более подробно рассмотрим оценку Больших Языковых Моделей.

Что такое оценка Больших Языковых Моделей?

Как и другие модели ИИ, Большие Языковые Модели также необходимо оценивать по определенным тестам, которые оценивают различные аспекты производительности языковой модели: знания, точность, надежность и последовательность. Стандарт обычно включает:

Понимание запросов пользователя: Оценка способности модели точно понимать и интерпретировать широкий спектр входных данных пользователя.
Проверка вывода: Проверка ответов, сгенерированных ИИ, против доверенной базы знаний, чтобы убедиться, что они правильны и актуальны.
Прочность: Измерение того, насколько хорошо модель работает с неоднозначными, неполными или шумными входными данными.

Оценка Больших Языковых Моделей дает разработчикам возможность выявить и устранить ограничения эффективно, чтобы они могли улучшить общий пользовательский опыт. Если Большая Языковая Модель тщательно оценена, она будет точной и прочной enough, чтобы справиться с различными реальными приложениями, даже включая те, у которых есть неоднозначные или непредвиденные входные данные.

Тесты

Большие Языковые Модели являются одной из самых сложных технологий на сегодняшний день и могут обеспечить даже самые сложные приложения. Итак, процесс оценки просто должен быть столь же сложным, проверяя мыслительный процесс и техническую точность.

Тест использует конкретные наборы данных, метрики и задачи оценки, чтобы проверить производительность Больших Языковых Моделей, и позволяет сравнивать разные Большие Языковые Модели и измерять их точность, что, в свою очередь, стимулирует прогресс в отрасли за счет улучшения производительности.

Вот некоторые из наиболее типичных аспектов производительности Больших Языковых Моделей:

Знания: Знания модели необходимо проверить в различных областях. Именно для этого существует тест знаний. Он оценивает, насколько эффективно модель может вспомнить информацию из разных областей, таких как физика, программирование, география и т. д.
Логическое рассуждение: Означает проверку способности модели «думать» шаг за шагом и вывести логический вывод, обычно включающий сценарии, в которых модель должна выбрать наиболее правдоподобное продолжение или объяснение на основе повседневных знаний и логического рассуждения.
Понимание чтения: Модели должны быть отличными в интерпретации естественного языка и затем генерировать ответы соответственно. Тест выглядит как ответы на вопросы на основе отрывков, чтобы оценить понимание, вывод и сохранение деталей. Как школьный тест на чтение.
Понимание кода: Это необходимо для измерения профессионализма модели в понимании, написании и отладке кода. Эти тесты дают модели задачи по программированию или проблемы, которые модель должна решить точно, часто охватывая ряд языков программирования и парадигм.
Знания о мире: Чтобы оценить понимание модели общих знаний о мире. Эти наборы данных обычно содержат вопросы, которые требуют широких, энциклопедических знаний, чтобы ответить на них правильно, что делает их khácными от более конкретных и специализированных тестов знаний.

«Знания» Тесты

MMLU (Мультимодальное понимание языка)

Этот тест предназначен для проверки понимания Больших Языковых Моделей фактических знаний по различным темам, таким как гуманитарные науки, социальные науки, история, компьютерные науки и даже право. 57 вопросов и 15 тысяч задач, все направлены на то, чтобы убедиться, что модель имеет отличные способности рассуждения. Это делает MMLU хорошим инструментом для оценки фактических знаний и рассуждений модели при работе с различными темами.

Недавно он стал ключевым тестом для оценки Больших Языковых Моделей в вышеупомянутых областях. Разработчики всегда хотят оптимизировать свои модели, чтобы превзойти другие в этом тесте, что делает его де-факто стандартом для оценки продвинутого рассуждения и знаний в Больших Языковых Моделях. Большие модели корпоративного класса показали впечатляющие результаты в этом тесте, включая GPT-4-omni с 88,7%, Claude 3 Opus с 86,8%, Gemini 1,5 Pro с 85,9% и Llama-3 70B с 82%. Меньшие модели обычно не показывают такого же уровня результатов в этом тесте, обычно не превышая 60-65%, но недавний результат Phi-3-Small-7b на уровне 75,3% является чем-то, о чем стоит подумать.

Однако MMLU не без недостатков: он имеет известные проблемы, такие как неоднозначные вопросы, неправильные ответы и отсутствие контекста. И многие считают, что некоторые из его задач слишком просты для правильной оценки Больших Языковых Моделей.

Я хотел бы сделать ясным, что тесты, подобные MMLU, не идеально отражают реальные сценарии. Если Большая Языковая Модель получает отличный результат в этом тесте, это не всегда означает, что она стала экспертом в предмете. Тесты действительно довольно ограничены по объему и часто полагаются на вопросы с несколькими вариантами ответов, которые не могут полностью отражать сложность и контекст реальных взаимодействий. Истинное понимание требует знания фактов и динамического применения этих знаний, что включает критическое мышление, решение проблем и контекстное понимание. По этим причинам Большие Языковые Модели постоянно нуждаются в доработке и обновлении, чтобы модель сохраняла актуальность и эффективность теста.

GPQA (Тест вопросов и ответов для выпускников)

Этот тест оценивает Большие Языковые Модели на логическом рассуждении с помощью набора данных с всего 448 вопросами. Домен-эксперты разработали его, и он охватывает темы в биологии, физике и химии.

Каждый вопрос проходит через следующий процесс проверки:

Эксперт в той же теме отвечает на вопрос и предоставляет подробную обратную связь.
Автор вопроса пересматривает вопрос на основе этой обратной связи.
Второй эксперт отвечает на пересмотренный вопрос.

Этот процесс может фактически гарантировать, что вопросы объективны, точны и сложны для языковой модели. Даже опытные PhD-ученые достигают только точности 65% на этих вопросах, в то время как GPT-4-omni достигает только 53,6%, подчеркивая разрыв между человеческим и машинным интеллектом.

Из-за высоких требований к квалификации набор данных на самом деле довольно мал, что несколько ограничивает его статистическую силу для сравнения точности и требует больших эффектов. Эксперты, которые создали и проверили эти вопросы, пришли из Upwork, поэтому они потенциально ввели предвзятости, основанные на их экспертизе и темах, охваченных.

Тесты кода

HumanEval

164 программных проблемы, настоящий тест для способностей Больших Языковых Моделей к программированию. Это HumanEval. Он предназначен для проверки базовых способностей программирования крупных языковых моделей. Он использует метрику pass@k для оценки функциональной точности сгенерированного кода, которая выводит вероятность того, что хотя бы один из лучших k сгенерированных кодов пройдет тестовые случаи.

Хотя набор данных HumanEval включает сигнатуры функций, docstrings, тела кода и несколько единиц тестирования, он не включает полный диапазон реальных проблем программирования, которые просто не смогут адекватно проверить способность модели генерировать правильный код для различных сценариев.

MBPP (Большинство основных задач программирования на Python)

MBPP тест состоит из 1000 крауд-сорсинговых задач программирования на Python. Это задачи начального уровня и они фокусируются на фундаментальных навыках программирования. Он использует подходы нескольких выстрелов и тонкой настройки для оценки производительности модели, и более крупные модели обычно показывают лучшие результаты на этом наборе данных. Однако, поскольку набор данных содержит в основном задачи начального уровня, он все еще не полностью представляет сложности и проблемы реальных приложений.

Математические тесты

Хотя большинство Больших Языковых Моделей довольно хороши в структурировании стандартных ответов, математическое рассуждение является намного большей проблемой для них. Почему? Потому что это требует навыков, связанных с пониманием вопросов, шаг за шагом логическим подходом с математическим рассуждением и получением правильного ответа.

Метод «Цепочка мысли» (CoT) предназначен для оценки Больших Языковых Моделей на математических тестах, он включает в себя побуждение моделей объяснить свой шаг за шагом процесс рассуждения при решении проблемы. Есть несколько преимуществ от этого. Он делает процесс рассуждения более прозрачным, помогает выявить недостатки в логике модели и позволяет более детально оценить навыки решения проблем. Разбивая сложные проблемы на серию более простых шагов, CoT может улучшить производительность модели на математических тестах и предоставить более глубокие знания о ее способностях рассуждения.

GSM8K: Популярный математический тест

Одним из известных тестов для оценки математических способностей Больших Языковых Моделей является набор данных GSM8K. GSM8K состоит из 8,5 тысяч математических задач средней школы, которые требуют нескольких шагов для решения, и решения в основном включают выполнение последовательности элементарных расчетов. Обычно более крупные модели или те, которые специально обучены для математического рассуждения, показывают лучшие результаты на этом тесте, например, модели GPT-4 показывают результат 96,5%, в то время как DeepSeekMATH-RL-7B отстает немного, показывая 88,2%.

Хотя GSM8K полезен для оценки способности модели справиться с математическими задачами начального уровня, он может не полностью отражать способность модели решать более сложные или разнообразные математические задачи, что ограничивает его эффективность как всесторонней меры математических способностей.

Математический набор данных: Всесторонняя альтернатива

Математический набор данных устраняет недостатки тестов, подобных GSM8K. Этот набор данных более обширный, охватывая арифметику от начального уровня до уровня старшей школы и даже колледжа. Он также сравнивается с человеческими результатами, с компьютерным ученым PhD, который не любит математику, достигающим точности 40%, и золотым медалистом, достигающим точности 90%.

Он обеспечивает более всестороннюю оценку математических способностей Больших Языковых Моделей. Он проверяет, что модель является профессионалом в базовой арифметике и компетентна в сложных областях, таких как алгебра, геометрия и исчисление. Но повышенная сложность и разнообразие задач могут сделать его сложным для моделей достичь высокой точности, особенно тех, которые не явно обучены на широком диапазоне математических концепций. Кроме того, разнообразные форматы задач в математическом наборе данных могут ввести несоответствия в производительности модели, что делает его намного сложнее сделать окончательные выводы о ее общих математических способностях.

Использование метода «Цепочка мысли» с математическим набором данных может улучшить оценку, поскольку оно раскрывает шаг за шагом способности Больших Языковых Моделей рассуждать в широком диапазоне математических задач. Такой подход гарантирует, что есть более прочная и детальная оценка истинных математических способностей Больших Языковых Моделей.

Тесты на понимание чтения

Оценка понимания чтения оценивает способность модели понимать и обрабатывать сложный текст, что особенно важно для приложений, таких как поддержка клиентов, генерация контента и извлечение информации. Есть несколько тестов, разработанных для оценки этого навыка, каждый со своими уникальными характеристиками, которые способствуют всесторонней оценке способностей модели.

RACE (Набор данных для понимания чтения из экзаменов)

Тесты RACE имеют почти 28 тысяч отрывков и 100 тысяч вопросов, собранных из английских экзаменов для китайских студентов средних и старших школ в возрасте от 12 до 18 лет. Он не ограничивает вопросы и ответы, извлеченные из заданных отрывков, что делает задачи еще более сложными.

Он охватывает широкий диапазон тем и типов вопросов, что делает его всесторонней оценкой и включает вопросы на разных уровнях сложности. Кроме того, вопросы в RACE специально разработаны для проверки человеческих навыков чтения и созданы домен-экспертами.

Однако тест имеет некоторые недостатки. Поскольку он разработан на китайских образовательных материалах, он склонен ввести культурные предвзятости, которые не отражают глобальный контекст. Кроме того, высокий уровень сложности в некоторых вопросах не является фактически представительным для типичных реальных задач. Итак, оценки производительности могут быть не совсем точными.

DROP (Дискретное рассуждение над абзацами)

Другой значимый подход — DROP (Дискретное рассуждение над абзацами), который бросает вызов моделям выполнять дискретное рассуждение над абзацами. Он имеет 96 тысяч вопросов для проверки способностей Больших Языковых Моделей к рассуждению и вопросы извлечены из Википедии и крауд-сорсинговые из Amazon Mechanical Turk. Вопросы DROP часто требуют от моделей выполнения математических операций, таких как сложение, вычитание и сравнение, на основе информации, разбросанной по всему абзацу.

Вопросы сложны. Они требуют от Больших Языковых Моделей найти несколько чисел в абзаце и добавить или вычесть их, чтобы получить окончательный ответ. Большие модели, такие как GPT-4 и Palm, достигают 80% и 85%, в то время как люди достигают 96% на наборе данных DROP.

Тесты на здравый смысл

Проверка здравого смысла в языковых моделях является интересной, но также ключевой, поскольку она оценивает способность модели делать суждения и выводы, соответствующие человеческому рассуждению. В отличие от нас, которые развивают всестороннюю модель мира через практический опыт, языковые модели обучаются на огромных наборах данных без фактического внутреннего понимания контекста. Это означает, что модели испытывают трудности с задачами, требующими интуитивного понимания повседневных ситуаций, логического рассуждения и практических знаний, которые очень важны для прочных и надежных приложений ИИ.

HellaSwag (Трудные окончания, более длинные контексты и низкоуровневые действия для ситуаций с генерацией противоречий)

Hellaswag разработан Rowan Zellers и коллегами в Университете Вашингтона и Институте искусственного интеллекта Аллена. Он предназначен для проверки способности модели предсказать наиболее правдоподобное продолжение данного сценария. Этот тест разработан с помощью метода противоречивой фильтрации (AF), где серия дискриминаторов итеративно выбирает противоречивые, машинно-сгенерированные неправильные ответы. Этот метод создает набор данных с тривиальными примерами для людей, но сложными для моделей, в результате чего получается «зона сложности».

Хотя Hellaswag был сложным для более ранних моделей, современные модели, такие как GPT-4, достигли уровня производительности, близкого к человеческой точности, что указывает на значительный прогресс в этой области. Однако эти результаты подчеркивают необходимость непрерывного развития тестов, чтобы идти в ногу с достижениями в возможностях ИИ.

Openbook

Набор данных Openbook состоит из 5957 элементарных научных вопросов с несколькими вариантами ответов. Вопросы собраны из открытых книг экзаменов и разработаны для оценки человеческого понимания предмета.

Тест Openbook требует способности рассуждения, выходящей за рамки извлечения информации. GPT-4 достигает наивысшей точности 95,9% на данный момент.

OpenbookQA моделирован по образцу открытых книг экзаменов и состоит из 5957 элементарных научных вопросов с несколькими вариантами ответов. Эти вопросы предназначены для проверки понимания 1326 основных научных фактов и их применения в новых ситуациях.

Аналогично Hellaswag, более ранние модели испытывали трудности с OpenbookQA, но современные модели, такие как GPT-4, достигли уровней производительности, близких к человеческим. Этот прогресс подчеркивает важность разработки еще более сложных и нюансов тестов, чтобы продолжать расширять границы понимания ИИ.

Достаточно ли тестов для оценки производительности Больших Языковых Моделей?

Да, хотя они обеспечивают стандартизированный подход к оценке производительности Больших Языковых Моделей, они также могут быть вводящими в заблуждение. Организация крупномасштабных моделей говорит, что хороший тест для Больших Языковых Моделей должен быть масштабируемым, способным оценивать новые модели с относительно небольшим количеством испытаний, и обеспечивать уникальный порядок ранжирования для всех моделей. Но есть причины, почему они могут быть не достаточно. Вот некоторые из них:

Утечка тестов

Это обычная проблема, и она возникает, когда обучающие данные перекрываются с тестовыми данными, что приводит к вводящей в заблуждение оценке. Если модель уже встречалась с некоторыми тестовыми вопросами во время обучения, ее результат может не точно отражать ее истинные способности. Но идеальный тест должен минимизировать запоминание и отражать реальные сценарии.

Оценочная предвзятость

Списки лидеров тестов Больших Языковых Моделей используются для сравнения производительности Больших Языковых Моделей в различных задачах. Однако полагаться на эти списки лидеров для сравнения моделей может быть вводящим в заблуждение. Простые изменения в тестовых вопросах, такие как изменение порядка вопросов, могут сдвинуть рейтинг моделей на восемь позиций. Кроме того, Большие Языковые Модели могут показывать разные результаты в зависимости от методов оценки, подчеркивая важность учета оценочных предвзятостей.

Открытость

Реальное взаимодействие с Больших Языковых Моделей включает проектирование подсказок для генерации желаемых выходных данных ИИ. Выходные данные Больших Языковых Моделей зависят от эффективности подсказок, и тесты предназначены для проверки контекстно-зависимых способностей Больших Языковых Моделей. Хотя тесты предназначены для проверки контекстно-зависимых способностей Больших Языковых Моделей, они не всегда переводятся напрямую в реальную производительность. Например, модель, достигающая 100% результата на наборе данных тестов, такой как LSAT, не гарантирует тот же уровень точности в практических приложениях. Это подчеркивает важность учета открытой природы реальных задач в оценке Больших Языковых Моделей.

Эффективная оценка для прочных Больших Языковых Моделей

Итак, теперь вы знаете, что тесты не всегда являются лучшим вариантом, поскольку они не могут обобщаться на все проблемы. Но есть другие способы.

Пользовательские тесты

Они идеальны для проверки конкретных поведений и функций в задачно-специфических сценариях. Скажем, если Большая Языковая Модель предназначена для медицинских офицеров, наборы данных, собранные из медицинских учреждений, будут эффективно представлять реальные сценарии. Эти пользовательские тесты могут сосредоточиться на домен-специфическом понимании языка, производительности и уникальных контекстно-зависимых требованиях. Выравнивая тесты с возможными реальными сценариями, вы можете гарантировать, что Большая Языковая Модель работает хорошо в целом и отлично в конкретных задачах, для которых она предназначена. Это может помочь выявить и устранить любые пробелы или слабости в способностях модели на ранней стадии.

Пipeline обнаружения утечки данных

Если вы хотите, чтобы ваши оценки «показывали» целостность, наличие pipeline, свободного от утечки данных, очень важно. Утечка данных происходит, когда данные тестов включены в предварительно обученный корпус модели, что приводит к искусственно высоким показателям производительности. Чтобы избежать этого, тесты должны быть перекрестно проверены с предварительно обученными данными. Плюс, шаги для избежания любой ранее увиденной информации. Это может включать использование проприетарных или недавно собранных наборов данных, которые сохраняются отдельно от конвейера обучения модели — это будет гарантировать, что метрики производительности, которые вы получаете, отражают способность модели обобщать хорошо.

Оценка человека

Автоматические метрики сами по себе не могут захватить весь спектр производительности модели, особенно когда речь идет о очень тонких и субъективных аспектах понимания и генерации языка. Здесь оценка человека обеспечивает гораздо лучшую оценку:

Наем профессионалов, которые могут предоставить подробные и надежные оценки, особенно для специализированных доменов.
Крауд-сорсинг! Платформы, такие как Amazon Mechanical Turk, позволяют быстро и с минимальными затратами собирать разнообразные человеческие суждения.
Обратная связь сообщества: Использование платформ, таких как арена лидеров LMSYS, где пользователи могут голосовать и сравнивать модели, добавляет дополнительный слой информации. Арена чат-ботов LMSYS Hard, например, особенно эффективна в подчеркивании тонких различий между лучшими моделями через прямые взаимодействия пользователей и голоса.

Заключение

Без оценки и тестирования мы не имели бы возможности знать, является ли способность Больших Языковых Моделей справляться с реальными задачами такой точной и применимой, как мы думаем. Но, как я сказал, тесты не являются полностью надежным способом проверить это, они могут привести к пробелам в производительности Больших Языковых Моделей. Это также может замедлить развитие Больших Языковых Моделей, которые действительно прочны для работы.

Это то, как должно быть в идеальном мире. Большие Языковые Модели понимают запросы пользователя, выявляют ошибки в подсказках, выполняют задачи, как указано, и генерируют надежные выходные данные. Результаты уже хороши, но не идеальны. Это где пользовательские тесты, оценка человека и обнаружение утечки тестов оказываются очень полезными. Используя их, мы получаем возможность производить действительно прочные Большие Языковые Модели.

Irina Barskaya, PhD, Head Data Scientist at Yandex

Ирина Барская, PhD, - известный ученый в области данных с более чем десятилетним опытом, охватывающим как анализ продукции, так и анализ для передовых технологий. Она возглавляла создание и анализ для Yasmina, первого полностью функционального локализованного AI-ассистента голоса для Саудовской Аравии, обрабатывая сложную локализацию данных и маркировку для современного стандартного арабского и саудовских диалектов. В настоящее время Ирина возглавляет аналитику качества в Yandex, стимулируя развитие технологий ИИ.