заглушки Оцінка великих мовних моделей: технічний посібник - Unite.AI
Зв'язатися з нами

Штучний Інтелект

Оцінка великих мовних моделей: Технічний посібник

mm

опублікований

 on

Оцінка великих мовних моделей

Великі мовні моделі (LLM), такі як GPT-4, Claude і LLaMA, набули популярності. Завдяки їхній здатності генерувати вражаюче людиноподібний текст, ці системи ШІ зараз використовуються для всього: від створення контенту до чат-ботів для обслуговування клієнтів.

Але як ми дізнаємося, чи справді ці моделі хороші? З огляду на те, що нові LLM постійно оголошуються, і всі вони стверджують, що вони більші та кращі, як ми оцінюємо та порівнюємо їх ефективність?

У цьому вичерпному посібнику ми розглянемо найкращі методи оцінки великих мовних моделей. Ми розглянемо плюси та мінуси кожного підходу, коли їх найкраще застосувати та як ви можете використовувати їх у своєму власному тестуванні LLM.

Метрики, що стосуються конкретного завдання

Одним із найпростіших способів оцінити LLM є тестування його на встановлених завданнях НЛП за допомогою стандартизованих показників. Наприклад:

Узагальнення

Для завдань підбиття підсумків такі показники, як ЧЕРВОНИЙ (Recall-Oriented Understudy for Gisting Evaluation) зазвичай використовуються. ROUGE порівнює резюме, створене моделлю, з «довідковим» резюме, написаним людиною, враховуючи збіги слів або фраз.

Є кілька смаків ROUGE, кожен зі своїми плюсами та мінусами:

  • ROUGE-N: Порівнює накладання n-грам (послідовності з N слів). РУЖ-1 використовує уніграми (окремі слова), РУЖ-2 використовує біграми тощо. Перевагою є те, що він фіксує порядок слів, але він може бути надто суворим.
  • ROUGE-L: На основі найдовшої загальної підпослідовності (LCS). Більш гнучкий у порядку слів, але зосереджується на основних моментах.
  • ROUGE-W: Вагові коефіцієнти LCS збігаються за значущістю. Спроби покращити ROUGE-L.

Загалом показники ROUGE є швидкими, автоматичними та добре працюють для ранжирування підсумків системи. Однак вони не вимірюють узгодженості чи значення. Резюме може отримати високу оцінку ROUGE і залишатися безглуздим.

Формула ROUGE-N така:

ROUGE-N=∑∈{Довідкові підсумки}∑∑�∈{Довідкові підсумки}∑

де:

  • Count_{match}(gram_n) це кількість n-грамів як у створеному, так і в контрольному підсумку.
  • Count(gram_n) – кількість n-грамів у еталонному підсумку.

Наприклад, для ROUGE-1 (уніграми):

  • Сформоване резюме: «Кіт сидів».
  • Опорний зміст: «Кіт сів на килимок».
  • Уніграми, що перекриваються: «The», «cat», «sat»
  • Оцінка ROUGE-1 = 3/5 = 0.6

РУЖ-Л використовує найдовшу загальну підпослідовність (LCS). Це більш гнучкий порядок слів. Формула:

ROUGE-L=���(генерований,референс)max(довжина(генерований), довжина(референс))

де LCS є довжиною найдовшої спільної підпослідовності.

РУЖ-В ваги збігів LCS. Він враховує важливість кожного матчу в LCS.

Переклад

Для завдань машинного перекладу СИНІЙ (Bilingual Evaluation Understudy) є популярним показником. BLEU вимірює подібність між вихідним перекладом моделі та професійним перекладом людини, використовуючи точність до n-грамів і штраф за стислість.

Ключові аспекти роботи BLEU:

  • Порівнює перекриття n-грам для n до 4 (уніграми, біграми, триграми, 4-грами).
  • Обчислює середнє геометричне з точністю n-грам.
  • Застосовує штраф за стислість, якщо переклад набагато коротший за посилання.
  • Зазвичай коливається від 0 до 1, де 1 ідеально відповідає еталонному.

BLEU досить добре співвідноситься з людськими оцінками якості перекладу. Але він все ще має обмеження:

  • Вимірює точність лише за посиланнями, а не за пригадуванням чи F1.
  • Бореться з креативними перекладами з використанням різних формулювань.
  • Сприйнятливий до «ігор» з трюками перекладу.

Інші метрики перекладу, такі як METEOR і TER, намагаються усунути недоліки BLEU. Але загалом автоматичні показники не повністю фіксують якість перекладу.

Інші завдання

Окрім узагальнення та перекладу, такі показники, як F1, точність, MSE тощо, можна використовувати для оцінки ефективності LLM у таких завданнях, як:

  • Класифікація тексту
  • Вилучення інформації
  • Відповідь на запитання
  • Аналіз почуттів
  • Виявлення граматичних помилок

Перевага метрик для конкретних завдань полягає в тому, що оцінювання можна повністю автоматизувати за допомогою стандартизованих наборів даних, як-от ЗАГІД для контролю якості та КЛЕЙ орієнтир для ряду завдань. Результати можна легко відстежувати з часом у міру вдосконалення моделей.

Однак ці показники є вузькими і не можуть виміряти загальну якість мови. LLM, які добре працюють з показниками для окремого завдання, можуть не генерувати послідовний, логічний, корисний текст загалом.

Орієнтири дослідження

Популярним способом оцінки LLM є перевірка їх на основі широкомасштабних дослідницьких тестів, що охоплюють різноманітні теми та навички. Ці тести дозволяють швидко тестувати моделі в масштабі.

Серед відомих тестів:

  • Суперклей – Складний набір із 11 різноманітних мовних завдань.
  • КЛЕЙ – Збірник завдань на розуміння 9 речень. Простіше, ніж SuperGLUE.
  • MMLU – 57 різних завдань із STEM, соціальних та гуманітарних наук. Перевіряє знання та здатність міркувати.
  • Winograd Schema Challenge – Проблеми з розв’язанням займенників, що вимагають міркування здорового глузду.
  • ARC – Складні завдання з логічного мислення природною мовою.
  • Hellaswag – Розуміння ситуацій здоровим глуздом.
  • PIQA – Питання з фізики, які потребують діаграм.

Оцінюючи подібні тести, дослідники можуть швидко перевірити моделі на їх здатність виконувати математику, логіку, міркування, кодування, здоровий глузд і багато іншого. Відсоток запитань із правильними відповідями стає еталонним показником для порівняння моделей.

Однак основна проблема з контрольними показниками є забруднення навчальних даних. Багато тестів містять приклади, які вже бачили моделі під час попереднього навчання. Це дозволяє моделям «запам'ятовувати» відповідають на конкретні запитання та працюють краще, ніж їхні справжні можливості.

Робляться спроби «знезаражувати” тестів, видаливши приклади, що збігаються. Але це складно зробити комплексно, особливо коли моделі бачили перефразовані або перекладені версії запитань.

Таким чином, хоча тести можуть ефективно перевіряти широкий набір навичок, вони не можуть надійно виміряти справжні здібності до міркування або уникнути збільшення балів через забруднення. Потрібні додаткові методи оцінки.

LLM Самооцінка

Інтригуючий підхід полягає в тому, щоб LLM оцінював результати іншого LLM. Ідея полягає в тому, щоб використати концепцію «простішого» завдання:

  • Створення високоякісного результату може бути складним для LLM.
  • Але визначення високої якості даного результату може бути легшим завданням.

Наприклад, хоча LLM може важко створити фактичний, послідовний абзац з нуля, йому легше визначити, чи даний абзац має логічний сенс і чи відповідає контексту.

Отже, процес такий:

  1. Передайте підказку введення першому LLM для генерації виводу.
  2. Передайте підказку введення + згенерований вихід другому «оцінювачу» LLM.
  3. Поставте оцінювачу LLM запитання, щоб оцінити якість результату. наприклад, «Чи наведена вище відповідь має логічний сенс?»

Цей підхід швидко впроваджується та автоматизує оцінювання LLM. Але є деякі труднощі:

  • Ефективність значною мірою залежить від вибору оцінювача LLM і швидкого формулювання.
  • Обмежений складністю початкового завдання. Оцінка складних міркувань все ще важка для LLM.
  • Може бути обчислювально дорогим, якщо використовувати LLM на основі API.

Самооцінка особливо перспективна для оцінки отриманої інформації RAG (генерація з доповненим пошуком) системи. Додаткові запити LLM можуть перевіряти, чи належним чином використовується отриманий контекст.

Загалом, самооцінка демонструє потенціал, але вимагає обережності у виконанні. Воно доповнює, а не замінює людську оцінку.

Оцінка людини

Враховуючи обмеження автоматизованих показників і тестів, людське оцінювання все ще є золотим стандартом для суворої оцінки якості LLM.

Експерти можуть надати детальну якісну оцінку:

  • Точність і правдивість фактів
  • Логіка, міркування та здоровий глузд
  • Послідовність, послідовність і читабельність
  • Доречність тону, стилю та голосу
  • Граматичність і плавність
  • Креативність і нюанси

Щоб оцінити модель, людям надається набір підказок для введення та відповіді, згенеровані LLM. Вони оцінюють якість відповідей, часто використовуючи рейтингові шкали та рубрики.

Недоліком є ​​те, що ручне оцінювання людиною є дорогим, повільним і його важко масштабувати. Це також вимагає розробки стандартизованих критеріїв і навчання оцінювачів їх послідовному застосуванню.

Деякі дослідники досліджували креативні способи краудфінансування людських оцінок LLM за допомогою систем у стилі турнірів, де люди роблять ставки та оцінюють матчі між моделями. Але покриття все ще обмежене порівняно з повним ручним оцінюванням.

Для бізнес-випадків, де якість має значення більше, ніж сирий масштаб, експертне тестування на людях залишається золотим стандартом, незважаючи на витрати. Це особливо вірно для більш ризикованих застосувань LLM.

Висновок

Ретельна оцінка великих мовних моделей вимагає використання різноманітного інструментарію взаємодоповнюючих методів, а не покладатися на якусь окрему техніку.

Поєднуючи автоматизовані підходи для підвищення швидкості з суворим людським наглядом за точністю, ми можемо розробити надійні методології тестування для великих мовних моделей. Завдяки надійній оцінці ми можемо розкрити величезний потенціал магістрів права, відповідально керуючи їхніми ризиками.

Останні п’ять років я провів, занурюючись у захоплюючий світ машинного та глибокого навчання. Моя пристрасть і досвід допомогли мені внести свій внесок у понад 50 різноманітних проектів розробки програмного забезпечення, зосередивши особливу увагу на ШІ/ML. Моя постійна цікавість також привела мене до обробки природної мови, галузі, яку я хочу досліджувати далі.