Штучний інтелект

Оцінка великомасштабних мовних моделей: Технічний посібник

Published January 29, 2024

Updated April 27, 2026

Aayush Mittal Mittal

Великомасштабні мовні моделі (LLM) типу GPT-4, Claude та LLaMA вибухнули популярністю. Завдяки їхній здатності генерувати вражаюче людське текст, ці системи штучного інтелекту тепер використовуються для всього, від створення контенту до чат-ботів для обслуговування клієнтів.

Але як ми знаємо, чи ці моделі справді хороші? З новими LLM, які оголошуються постійно, всі стверджують, що вони більші та кращі, як ми оцінюємо та порівнюємо їхню продуктивність?

У цьому комплексному посібнику ми дослідимо найкращі техніки для оцінки великомасштабних мовних моделей. Ми розглянемо переваги та недоліки кожного підходу, коли вони найкраще застосовуються, і як ви можете використовувати їх у власному тестуванні LLM.

Метрики для конкретних завдань

Одним з найпростіших способів оцінити LLM є тестування його на встановлених завданнях NLP за допомогою стандартизованих метрик. Наприклад:

Резюмування

Для завдань з резюмування метрики типу ROUGE (Орієнтована на відгуки оцінка резюмування) часто використовуються. ROUGE порівнює підсумок, згенерований моделлю, з людським “еталонним” резюме, підраховуючи перекриття слів чи фраз.

Є кілька варіантів ROUGE, кожен зі своїми перевагами та недоліками:

ROUGE-N: Порівнює перекриття n-грам (послідовностей з N слів). ROUGE-1 використовує уніграми (один слово), ROUGE-2 використовує біграми тощо. Перевага полягає в тому, що вона захоплює порядок слів, але може бути надто суворою.
ROUGE-L: Основана на найдовшій спільній підпослідовності (LCS). Більш гнучка щодо порядку слів, але фокусується на основних моментах.
ROUGE-W: Вагові LCS-відповідності. Спроба покращити ROUGE-L.

Загалом, метрики ROUGE є швидкими, автоматичними та працюють добре для рейтингу підсумків системи. Однак вони не вимірюють сполучення чи сенс. Резюме могло б отримати високий бал ROUGE та все одно бути безглуздим.

Формула для ROUGE-N:

$ROUGE-N = \sum ^{s \in {Reference Summaries}} \sum ^{g r a m n \in s} C o u n t ( g r a m ^{n} ) \sum ^{s \in {Reference Summaries}} \sum ^{g r a m n \in s} C o u n t ^{ma t c h} ( g r a m ^{n} )$

Де:

Count_{match}(gram_n) — кількість n-грам у згенерованому та еталонному резюмі.
Count(gram_n) — кількість n-грам у еталонному резюмі.

Наприклад, для ROUGE-1 (уніграм):

Згенероване резюме: “Кіт сидить.”
Еталонне резюме: “Кіт сидить на килимі.”
Перекриваються уніграми: “Кіт”, “сидить”
Бал ROUGE-1 = 3/5 = 0,6

ROUGE-L використовує найдовшу спільну підпослідовність (LCS). Це більш гнучко щодо порядку слів. Формула така:

$ROUGE-L = max(length(generated), length(reference)) L CS ( generated , reference )$

Де LCS — довжина найдовшої спільної підпослідовності.

ROUGE-W вагові LCS-відповідності. Вона розглядає значення кожного збігу в LCS.

Переклад

Для завдань машинного перекладу популярною метрикою є BLEU (Білінґвальна оцінка підручника). BLEU вимірює схожість між вивідом моделі та професійним людським перекладом, використовуючи точність n-грам та штраф за короткість.

Ключові аспекти того, як працює BLEU:

Порівнює перекриття n-грам для n до 4 (уніграм, біграми, триграми, 4-грами).
Розраховує геометричне середнє точності n-грам.
Застосовує штраф за короткість, якщо переклад значно коротший за еталон.
Зазвичай варіюється від 0 до 1, де 1 — ідеальний збіг з еталоном.

BLEU корелює досить добре з людською оцінкою якості перекладу. Однак у нього все ще є обмеження:

Вимірює тільки точність щодо еталонів, а не виклик чи F1.
Має труднощі з творчими перекладами, що використовують різні слова.
Чутливий до “ігрових” перекладів з трюками.

Інші метрики перекладу, такі як METEOR і TER, намагаються покращити слабкості BLEU. Однак загалом автоматичні метрики не повністю захоплюють якість перекладу.

Інші завдання

Окрім резюмування та перекладу, метрики типу F1, точності, MSE та інші можна використовувати для оцінки продуктивності LLM на завданнях типу:

Класифікація тексту
Видобування інформації
Відповіді на питання
Аналіз настрою
Виявлення граматичних помилок

Перевага завдань-специфічних метрик полягає в тому, що оцінка може бути повністю автоматизована за допомогою стандартизованих наборів даних, таких як SQuAD для QA та GLUE для ряду завдань. Результати можна легко відстежувати з плином часу, оскільки моделі покращуються.

Однак ці метрики вузькі та не можуть виміряти загальну якість мови. LLM, які працюють добре на метриках для одного завдання, можуть провалитися у генерації сполученого, логічного та корисного тексту в цілому.

Дослідницькі бенчмарки

Популярним способом оцінки LLM є тестування їх на широких дослідницьких бенчмарках, які охоплюють різноманітні теми та навички. Ці бенчмарки дозволяють швидко тестувати моделі у великому масштабі.

Деякі відомі бенчмарки включають:

SuperGLUE — складний набір з 11 різноманітних мовних завдань.
GLUE — колекція з 9 завдань зі зрозуміння речення. Простіше, ніж SuperGLUE.
MMLU — 57 різних завдань зі STEM, соціальних наук та гуманітарних наук. Тестує знання та здатність до висновків.
Winograd Schema Challenge — завдання з розв’язання займенників, які вимагають звичайного розумового висновку.
ARC — складні завдання зі звичайного мовного висновку.
Hellaswag — завдання зі звичайного висновку про ситуації.
PIQA — питання з фізики, які вимагають діаграм.

Оцінюючи на цих бенчмарках, дослідники можуть швидко тестувати моделі на їхню здатність виконувати математичні, логічні, висновкові, кодувальні, звичайні висновки та багато іншого. Відсоток правильно відповілих питань стає метрикою бенчмарку для порівняння моделей.

Однак однією з основних проблем з бенчмарками є забруднення навчальних даних. Багато бенчмарків містять приклади, які вже були побачені моделями під час попереднього навчання. Це дозволяє моделям “запам’ятовувати” відповіді на конкретні питання та виконувати краще, ніж їхні справжні можливості.

Відбуваються спроби “очистити” бенчмарки шляхом видалення перекриваючих прикладів. Однак це складно зробити повністю, особливо коли моделі могли побачити перефразовані або перекладені версії питань.

Таким чином, хоча бенчмарки можуть тестувати широкий набір навичок ефективно, вони не можуть надійно виміряти справжню здатність до висновків або уникнути інфляції балів через забруднення. Потрібні додаткові методи оцінки.

Оцінка LLM

Одним з цікавих підходів є оцінка одного LLM іншим LLM. Ідея полягає в тому, щоб використати “легше” завдання:

Виробництво високоякісного виводу може бути складним завданням для LLM.
Але визначення того, чи є заданий вивід високоякісним, може бути легшим завданням.

Наприклад, хоча LLM може боротися з генерацією фактичного, сполученого параграфа з нуля, він може легше визначити, чи параграф має логічний сенс та підходить до контексту.

Таким чином, процес такий:

Передайте вхідний сигнал до першого LLM для генерації виводу.
Передайте вхідний сигнал + згенерований вивід до другого “оцінювального” LLM.
Задайте оцінювальному LLM питання для оцінки якості виводу. Наприклад, “Чи має вище вказаний відповідь логічний сенс?”

Цей підхід швидко реалізується та автоматизує оцінювання LLM. Однак існують деякі виклики:

Продуктивність сильно залежить від вибору оцінювального LLM та формулювання сигналу.
Обмежується складністю оригінального завдання. Оцінювання складного висновку все ще складне для LLM.
Може бути обчислювально дорогим, якщо використовувати API-орієнтовані LLM.

Оцінювання самого себе особливо перспективне для оцінки витягнутих даних у RAG (генерація, доповнена пошуком) системах. Додаткові запити LLM можуть валідувати, чи контекст використовується належним чином.

Загалом, оцінювання самого себе показує перспективи, але вимагає уважного впровадження. Воно доповнює, а не замінює, людську оцінку.

Людська оцінка

Враховуючи обмеження автоматичних метрик та бенчмарків, людська оцінка все ще є золотим стандартом для суворої оцінки якості LLM.

Експерти можуть надавати детальні якісні оцінки щодо:

Точності та фактичної правильності
Логіки, висновку та звичайного висновку
Сполучення, послідовності та читабельності
Придатності тону, стилю та голосу
Граматичності та плавності
Креативності та нюансів

Для оцінки моделі людям надається набір вхідних сигналів та відповідей LLM. Вони оцінюють якість відповідей, часто використовуючи шкали оцінювання та рубрики.

Недоліком є те, що ручна людська оцінка дорога, повільна та важка для масштабування. Вона також вимагає розробки стандартизованих критеріїв та навчання оцінювачів застосовувати їх послідовно.

Деякі дослідники досліджували творчі способи краудфандингу людської оцінки LLM за допомогою турнірних систем, де люди ставлять на матчі між моделями та оцінюють їх. Однак покриття все ще обмежене порівняно з повною ручною оцінкою.

Для бізнес-використань, де якість важливіша за сурову масштабованість, експертна людська перевірка залишається золотим стандартом, незважаючи на свої витрати. Це особливо вірно для ризикованих застосунків LLM.

Висновок

Точна оцінка великомасштабних мовних моделей вимагає використання різноманітного інструментарію з додаткових методів, а не залежності від будь-якого окремого підходу.

Об’єднуючи автоматичні підходи для швидкості з суворою людською перевіркою для точності, ми можемо розробити надійні методи тестування для великомасштабних мовних моделей. З надійною оцінкою ми можемо розблокувати величезний потенціал LLM, керуючи їхніми ризиками відповідально.

Aayush Mittal

Я провів останні п'ять років, занурючись у захопливий світ машинного навчання та глибокого навчання. Моя пристрасть та експертиза привели мене до внеску у понад 50 різноманітних проектів програмної інженерії, з особливим акцентом на AI/ML. Моя триваюча цікавість також привела мене до обробки природної мови, галузі, яку я бажаю дослідити далі.

Unite.AI