Свяжитесь с нами:

Ориентиры для LLM

Лидеры мысли

Ориентиры для LLM

mm

Поймите роль и ограничения тестов при оценке эффективности LLM. Изучите методы разработки надежных программ LLM.

Большие языковые модели приобрели огромную популярность в последние годы. Вы сами это видели. Исключительная способность LLM понимать команды человеческого языка сделала их абсолютно идеальным решением для бизнеса, поддерживая критически важные рабочие процессы и автоматизируя задачи с максимальной эффективностью. Более того, помимо понимания обычного пользователя, LLM способны на гораздо большее. И по мере того, как наша зависимость от них растёт, нам действительно необходимо уделять больше внимания мерам по обеспечению необходимой точности и надёжности. Это глобальная задача, касающаяся целых учреждений, но в сфере бизнеса теперь существует несколько критериев, которые можно использовать для оценки эффективности LLM в различных областях. Они позволяют проверить способности модели к пониманию, построению логики, математике и так далее, а результаты определяют, готова ли LLM к внедрению в бизнес.

В этой статье я собрал полный список наиболее популярных тестов для оценки LLM. Мы подробно обсудим каждый критерий и посмотрим, насколько разные LLM соответствуют критериям оценки. Но сначала давайте разберемся с оценкой LLM более подробно.

Что такое оценка LLM?

Как и другие модели ИИ, LLM также необходимо оценивать по определённым критериям, которые оценивают различные аспекты эффективности языковой модели: знания, точность, надёжность и согласованность. Стандарт обычно включает:

  1. Понимание пользовательских запросов: Оценка способности модели точно понимать и интерпретировать широкий спектр входных данных пользователя.
  2. Проверка вывода: Проверка ответов, сгенерированных ИИ, на соответствие надежной базе знаний, чтобы убедиться в их правильности и актуальности.
  3. Надёжность: Измерение того, насколько хорошо модель работает с неоднозначными, неполными или зашумленными входными данными.

Оценка LLM дает разработчикам возможность эффективно выявлять и устранять ограничения, чтобы они могли улучшить общее взаимодействие с пользователем. Если LLM тщательно оценен, он будет достаточно точным и надежным для работы с различными реальными приложениями, даже включая приложения с неоднозначными или неожиданными входными данными.

тесты

LLM — одна из самых сложных технологий на сегодняшний день, которая может использоваться даже в самых сложных приложениях. Таким образом, процесс оценки просто должен быть столь же сложным, проверяя его мыслительный процесс и техническую точность.

Тестирование использует определенные наборы данных, метрики и задачи оценки для проверки производительности LLM и позволяет сравнивать различные LLM и измерять их точность, что, в свою очередь, способствует прогрессу в отрасли за счет повышения производительности.

Вот некоторые из наиболее типичных аспектов работы LLM:

  • Центр базы знаний: Знания модели необходимо проверить в различных областях. Именно для этого и предназначен тест знаний. Он оценивает, насколько эффективно модель может запоминать информацию из разных областей, таких как физика, программирование, география и т. д.
  • логический аргументация: Означает проверку способности модели «думать» шаг за шагом и выводить логические выводы. Обычно они включают сценарии, в которых модель должна выбрать наиболее правдоподобное продолжение или объяснение, основанное на повседневных знаниях и логических рассуждениях.
  • Понимание прочитанного: Модели должны отлично интерпретировать естественный язык и затем генерировать соответствующие ответы. Тест выглядит как ответы на вопросы, основанные на отрывках, для оценки понимания, умозаключений и запоминания деталей. Как школьный тест по чтению.
  • Понимание кода: Это необходимо для измерения навыков модели в понимании, написании и отладке кода. Эти тесты определяют задачи или проблемы кодирования модели, которые модель должна точно решить, часто охватывая целый ряд языков программирования и парадигм.
  • Мировые знания: оценить, насколько хорошо модель охватывает общие знания о мире. Эти наборы данных обычно содержат вопросы, требующие широких, энциклопедических знаний для правильного ответа, что отличает их от более конкретных и специализированных тестов знаний.

Критерии «Знаний»

MMLU (многомодальное понимание языка)

Этот тест предназначен для проверки понимания LLM фактических знаний по различным темам, таким как гуманитарные науки, социальные науки, история, компьютерные науки и даже право. 57 вопросов и 15 тыс. заданий направлены на то, чтобы убедиться, что модель обладает большими возможностями рассуждения. Это делает MMLU хорошим инструментом для оценки фактических знаний LLM и рассуждений, касающихся различных тем.

В последнее время он стал ключевым ориентиром для оценки LLM в вышеупомянутых областях. Разработчики всегда хотят оптимизировать свои модели, чтобы превзойти другие в этом тесте, что делает его де-факто стандартом для оценки продвинутых рассуждений и знаний в LLM. Крупные модели корпоративного уровня показали впечатляющие результаты в этом тесте, включая GPT-4-omni с 88.7%, Claude 3 Opus с 86.8%, Gemini 1.5 Pro с 85.9% и Llama-3 70B с 82%. Маленькие модели обычно не так хороши в этом тесте, обычно не превышая 60-65%, но недавняя производительность Phi-3-Small-7b на уровне 75.3% — это то, о чем стоит задуматься.

Однако MMLU не лишен недостатков: у него есть известные проблемы, такие как неоднозначные вопросы, неправильные ответыи отсутствует контекст. И многие думают, что некоторые из его задач слишком просты для правильной оценки LLM.

Хочу подчеркнуть, что тесты, подобные MMLU, не идеально отражают реальные ситуации. Если магистр права (LLM) получает высокие баллы по этому тесту, это не всегда означает, что он стал экспертом в данной области. Тесты на самом деле довольно ограничены по охвату и часто основаны на вопросах с несколькими вариантами ответов, которые никогда не могут в полной мере отразить сложность и контекст реального взаимодействия. Истинное понимание требует знания фактов и динамичного применения этих знаний, что включает в себя критическое мышление, решение проблем и понимание контекста. По этим причинам тесты LLM необходимо постоянно совершенствовать и обновлять, чтобы модель сохраняла актуальность и эффективность теста.

GPQA (тест вопросов и ответов Google для выпускников)

Этот тест оценивает LLM по логическим рассуждениям с использованием Набор данных всего с 448 вопросами. Его разработали эксперты в предметной области, и он охватывает темы биологии, физики и химии.

Каждый вопрос проходит следующий процесс проверки:

  1. Эксперт по той же теме отвечает на вопрос и дает подробный отзыв.
  2. Автор вопроса пересматривает вопрос на основе этой обратной связи.
  3. Второй эксперт отвечает на пересмотренный вопрос.

Этот процесс действительно может гарантировать, что вопросы объективны, точны и сложны для языковой модели. Даже опытные ученые-докторанты достигают точности в 65% по этим вопросам, тогда как GPT-4-omni достигает только 53.6%, что подчеркивает разрыв между человеческим и машинным интеллектом.

Из-за высоких квалификационных требований набор данных на самом деле довольно мал, что несколько ограничивает его статистическую мощность для сравнения точности и требует больших размеров эффекта. Эксперты, которые создали и проверили эти вопросы, были из Upwork, поэтому они потенциально внесли предвзятость, основанную на их опыте и затронутых темах.

Тесты кода

HumanEval

164 задачи по программированию — настоящая проверка способностей студентов-магистров программировать. Его HumanEval. Он предназначен для проверки базовых возможностей кодирования больших языковых моделей (LLM). Он использует метрику pass@k для оценки функциональной точности генерируемого кода, которая выводит вероятность того, что по крайней мере один из k лучших образцов кода, сгенерированных LLM, пройдет тестовые случаи.

Хотя набор данных HumanEval включает сигнатуры функций, строки документации, тела кода и несколько модульных тестов, он не включает в себя полный спектр реальных проблем кодирования, которые просто не позволяют адекватно проверить способность модели создавать правильный код для различных сценариев.

MBPP (в основном базовое программирование на Python)

Мбит/с Эталонный тест состоит из 1,000 вопросов по программированию на Python, полученных от краудсорсинга. Это задачи начального уровня, и они сосредоточены на фундаментальных навыках программирования. Для оценки производительности модели используются подходы с несколькими выстрелами и точной настройкой, при этом более крупные модели обычно работают лучше в этом наборе данных. Однако, поскольку набор данных содержит в основном программы начального уровня, он все еще не полностью отражает сложности и проблемы реальных приложений.

Математические тесты

Хотя большинство студентов LLM довольно хорошо умеют структурировать стандартные ответы, математическое рассуждение является для них гораздо более серьезной проблемой. Почему? Потому что это требует навыков, связанных с пониманием вопросов, пошаговым логическим подходом с математическими рассуждениями и получением правильного ответа.

Метод «Цепочка мыслей» (CoT) предназначен для оценки LLM на математических тестах. Он предлагает моделям пошагово объяснять ход рассуждений при решении задачи. Это имеет ряд преимуществ. Он делает процесс рассуждений более прозрачным, помогает выявить недостатки в логике модели и позволяет более детально оценить навыки решения задач. Разбивая сложные задачи на ряд более простых шагов, CoT может улучшить результаты модели на математических тестах и ​​дать более глубокое понимание её возможностей в области рассуждений.

GSM8K: популярный математический тест

Одним из хорошо известных тестов для оценки математических способностей в рамках LLM является набор данных GSM8K. GSM8K состоит из 8.5 тысяч математических задач для средней школы, для решения которых требуется несколько шагов, а решения в основном включают выполнение последовательности элементарных вычислений. Как правило, более крупные модели или модели, специально обученные математическим рассуждениям, обычно показывают лучшие результаты в этом тесте, например, модели GPT-4 имеют показатель 96.5%, а DeepSeekMATH-RL-7B немного отстает - 88.2%.

Хотя GSM8K полезен для оценки способности модели решать математические задачи уровня начальной школы, он не может в полной мере отразить способность модели решать более сложные или разнообразные математические задачи, что ограничивает его эффективность как комплексного средства измерения математических способностей.

Набор математических данных: комплексная альтернатива

Набор математических данных учитывал недостатки таких тестов, как GSM8K. Этот набор данных более обширен и охватывает задачи от элементарной арифметики до задач средней школы и даже уровня колледжа. Его также сравнивают с людьми: аспирант информатики, который не любит математику, достигает точности 40%, а золотой медалист достигает точности 90%.

Он обеспечивает более всестороннюю оценку математических способностей LLM. Он призван доказать, что модель владеет основами арифметики и компетентна в таких сложных областях, как алгебра, геометрия и исчисление. Однако возросшая сложность и разнообразие задач может затруднить достижение высокой точности моделями, особенно теми, которые не были специально обучены широкому спектру математических концепций. Кроме того, различные форматы задач в наборе данных Math могут привести к несоответствиям в результатах модели, что значительно затрудняет получение окончательных выводов об общей математической компетентности модели.

Использование метода «Цепочка мыслей» с набором данных Math может повысить качество оценки, поскольку раскрывает способность обладателей степени магистра права (LLM) к пошаговому рассуждению при решении широкого спектра математических задач. Подобный комбинированный подход обеспечивает более надежную и детальную оценку истинных математических способностей обладателей степени магистра права (LLM).

Тесты на понимание чтения

Оценка понимания прочитанного позволяет оценить способность модели понимать и обрабатывать сложный текст, что особенно важно для таких приложений, как поддержка клиентов, создание контента и поиск информации. Существует несколько контрольных показателей, разработанных для оценки этого навыка, каждый из которых обладает уникальными характеристиками, способствующими комплексной оценке возможностей модели.

RACE (набор данных о понимании прочитанного из экзаменов)

Тесты RACE содержат почти 28,000 100,000 отрывков и 12 18 вопросов, собранных из экзаменов по английскому языку для китайских учащихся средних и старших классов в возрасте от XNUMX до XNUMX лет. Он не ограничивает количество вопросов и ответов, которые можно извлечь из данных отрывков, что делает задачи равномерными. тем сложнее.

Он охватывает широкий спектр тем и типов вопросов, что обеспечивает тщательную оценку и включает вопросы разного уровня сложности. Кроме того, вопросы в RACE специально разработаны для проверки навыков чтения человеком и созданы экспертами в данной области.

Однако у эталона есть некоторые недостатки. Поскольку он разработан на основе китайских образовательных материалов, он склонен привносить культурные предубеждения, которые не отражают глобальный контекст. Кроме того, высокий уровень сложности некоторых вопросов на самом деле не соответствует типичным реальным задачам. Поэтому оценки производительности могут быть не столь точными.

DROP (Дискретное рассуждение по абзацам)

Еще одним важным подходом является DROP (дискретное рассуждение по абзацам), который заставляет модели выполнять дискретное рассуждение по абзацам. В нем содержится 96,000 XNUMX вопросов для проверки рассуждений студентов, имеющих степень магистра права. Вопросы взяты из Википедии и собраны с помощью краудсорсинга Amazon Mechanical Turk. Вопросы DROP часто вызывают модели для выполнения математических операций, таких как сложение, вычитание и сравнение, на основе информации, разбросанной по тексту.

Вопросы сложные. Они требуют от LLM найти несколько чисел в отрывке и сложить или вычесть их, чтобы получить окончательный ответ. Большие модели, такие как GPT-4 и palm, достигают 80% и 85%, в то время как люди достигают 96% на наборе данных DROP.

Тесты здравого смысла

Проверка здравого смысла в языковых моделях — интересный и одновременно ключевой вопрос, поскольку он оценивает способность модели выносить суждения и делать выводы, соответствующие нашему человеческому мышлению. В отличие от нас, которые разрабатывают комплексную модель мира на основе практического опыта, языковые модели обучаются на огромных наборах данных без фактического понимания контекста. Это означает, что модели испытывают трудности с задачами, требующими интуитивного понимания повседневных ситуаций, логического мышления и практических знаний, которые очень важны для надёжных и стабильных приложений ИИ.

HellaSwag (более сложные концовки, более длинные контексты и маловероятные действия для ситуаций с состязательными поколениями)

Hellaswag разработан Роуэном Целлерсом и его коллегами из Вашингтонского университета и Института искусственного интеллекта Аллена. Он предназначен для проверки способности модели предсказывать наиболее правдоподобное продолжение заданного сценария. Этот бенчмарк построен с использованием состязательной фильтрации (СФ), где ряд дискриминаторов итеративно выбирает неправильные ответы, сгенерированные состязательной машиной. Этот метод создает набор данных с тривиальными примерами для людей, но сложными для моделей, что приводит к «зоне Златовласки» (Goldilocks).

В то время как Hellaswag испытывал трудности с более ранними моделями, современные модели, такие как GPT-4, достигли уровня производительности, близкого к человеческой точности, что указывает на значительный прогресс в этой области. Однако эти результаты свидетельствуют о необходимости постоянного развития тестов, чтобы идти в ногу с развитием возможностей искусственного интеллекта.

открытая книга

Набор данных Openbook состоит из 5957 вопросов начального уровня с несколькими вариантами ответов. Вопросы собраны из экзаменов с открытой книгой и разработаны для оценки человеческого понимания предмета.

Тест Openbook требует способности рассуждения, выходящей за рамки поиска информации. На данный момент GPT-4 достигает высочайшей точности 95.9%.

OpenbookQA создан по образцу экзаменов по открытой книге и состоит из 5,957 вопросов по естествознанию элементарного уровня с несколькими вариантами ответов. Эти вопросы предназначены для проверки понимания 1,326 основных научных фактов и их применения в новых ситуациях.

Как и в случае с Hellaswag, более ранние модели считали OpenbookQA сложной задачей, но современные модели, такие как GPT-4, достигли уровня производительности, близкого к человеческому. Этот прогресс подчеркивает важность разработки еще более сложных и тонких тестов для дальнейшего расширения границ понимания ИИ.

Достаточно ли тестов для оценки эффективности LLM?

Да, хотя они и обеспечивают стандартизированный подход к оценке эффективности LLM, они также могут вводить в заблуждение. Организация больших модельных систем заявляет, что хороший тест LLM должен быть масштабируемым, способным оценивать новые модели с относительно небольшим количеством испытаний и обеспечивать уникальный порядок ранжирования для всех моделей. Но есть причины, по которым их может быть недостаточно. Вот некоторые из них:

Утечка эталонного теста

Это обычная ситуация, и это происходит, когда обучающие данные перекрываются с тестовыми данными, что приводит к ошибочной оценке. Если модель уже столкнулась с некоторыми тестовыми вопросами во время обучения, ее результат может неточно отражать ее истинные возможности. Но идеальный тест должен минимизировать запоминание и отражать реальные сценарии.

Предвзятость оценки

Таблицы лидеров для LLM-тестов используются для сравнения результатов LLM при выполнении различных задач. Однако использование этих таблиц для сравнения моделей может быть ограничено. дезориентировать. Простые изменения в тестах производительности, такие как изменение порядка вопросов, могут сместить рейтинг моделей на восемь позиций. Кроме того, LLM могут работать по-разному в зависимости от методов оценки, что подчеркивает важность учета систематических ошибок в оценках.

Открытая бесконечность

Реальное взаимодействие LLM включает в себя разработку подсказок для получения желаемых результатов ИИ. Результаты LLM зависят от эффективности подсказок, а тесты предназначены для проверки контекстной осведомленности LLM. Хотя тесты предназначены для проверки контекстной осведомленности LLM, они не всегда напрямую отражаются на реальной производительности. Например, модель, получившая 100% оценку в эталонном наборе данных, таком как LSAT, не гарантирует такой же уровень точности в практических приложениях. Это подчеркивает важность учета открытого характера реальных задач при оценке LLM.

Эффективная оценка для надежных программ LLM

Итак, теперь вы знаете, что бенчмарки не всегда являются лучшим вариантом, поскольку они не всегда могут быть обобщены для всех проблем. Но есть и другие способы.

Пользовательские тесты

Они идеально подходят для тестирования определённых функций и поведения в сценариях, специфичных для конкретных задач. Например, если программа LLM предназначена для медицинских работников, то наборы данных, собранные в медицинских учреждениях, будут эффективно отражать реальные ситуации. Эти специализированные тесты могут быть ориентированы на понимание языка, производительность и уникальные контекстные требования. Согласуя тесты с возможными реальными сценариями, вы можете гарантировать, что программа LLM в целом хорошо работает и превосходно справляется с конкретными задачами, для которых она предназначена. Это поможет выявить и устранить любые пробелы или слабые места в возможностях модели на ранних этапах.

Конвейер обнаружения утечки данных

Если вы хотите, чтобы ваши оценки «демонстрировали» целостность, крайне важно иметь конвейер бенчмарков без утечек данных. Утечка данных происходит, когда данные бенчмарка включаются в корпус данных для предварительной подготовки модели, что приводит к искусственно завышенным результатам. Чтобы избежать этого, бенчмарки следует сопоставлять с данными предварительной подготовки. Кроме того, необходимо принять меры для исключения ранее обнаруженной информации. Это может включать использование собственных или недавно отобранных наборов данных, хранящихся отдельно от конвейера обучения модели, — это гарантирует, что получаемые вами метрики производительности отражают способность модели к обобщению.

Человеческая оценка

Автоматизированные метрики сами по себе не могут охватить весь спектр эффективности модели, особенно когда речь идёт о тонких и субъективных аспектах понимания и генерации языка. В этом случае человеческая оценка даёт гораздо более точную оценку:

  • Найм профессионалов которые могут предоставить подробные и надежные оценки, особенно для специализированных областей.
  • Краудсорсинг! Такие платформы, как Amazon Mechanical Turk, позволяют быстро и с небольшими затратами собирать различные мнения людей.
  • Отзыв сообщества: использование таких платформ, как таблица лидеров LMSYS, где пользователи могут голосовать и сравнивать модели, добавляет дополнительный уровень понимания. Например, чат-бот LMSYS Arena Hard особенно эффективен для выявления тонких различий между топ-моделями посредством прямого взаимодействия с пользователем и голосования.

Заключение

Без оценки и сравнительного анализа у нас не было бы возможности узнать, является ли способность LLM решать реальные задачи настолько точной и применимой, насколько мы думаем. Но, как я уже сказал, тесты не являются полностью надежным способом проверки этого, они могут привести к пробелам в производительности LLM. Это также может замедлить развитие LLM, которые действительно надежны для работы.

Так должно быть в идеальном мире. LLM понимают запросы пользователей, выявляют ошибки в подсказках, выполняют задачи в соответствии с инструкциями и генерируют надежные результаты. Результаты уже отличные, но не идеальные. Именно здесь очень полезны тесты для конкретных задач, а также человеческая оценка и обнаружение утечек тестов. Используя их, мы получаем возможность создавать действительно надежные LLM.

Ирина Барская, доктор философии, — выдающийся специалист по данным с более чем десятилетним опытом работы, охватывающим как продуктовую аналитику, так и аналитику передовых технологий. Она возглавляла создание и аналитику Yasmina, первого полнофункционального локализованного голосового помощника на базе искусственного интеллекта для Саудовской Аравии, занимающегося сложной локализацией и маркировкой данных для современного стандартного арабского языка и саудовских диалектов. В настоящее время Ирина возглавляет аналитику качества в Яндекс, способствуя развитию технологий искусственного интеллекта.