Connect with us

Штучний інтелект

GPT-3 : Few Shot Learning for Language Model?

mm

За останні кілька років галузь штучного інтелекту та машинного навчання стала свідком стрімкого зростання розробки та застосування систем обробки природної мови, оскільки дослідники змогли реалізувати практики обробки природної мови високої гнучкості та незалежності від завдань для подальшого переносу завдань.

Спочатку це були одношарові представлення, які використовували векторні слова, а потім їх подавали до завдання-специфічної архітектури. Потім це була архітектура RNN, яка використовувала багаторівневі представлення та контекстний стан для формування кращих представлень. І найостанніше, у нас є передавальні моделі мови або попередньо натреновані рекурентні моделі, які повністю усунули потребу в завдання-специфічних архітектурах шляхом донастройки цих мереж.

Передавальні моделі мови стали важливим поворотним моментом у галузі обробки природної мови, оскільки вони призвели до значного прогресу в складних завданнях, таких як відповіді на питання, читання розуміння або блоки тексту, текстова імплікація та багато іншого.

Однак, незважаючи на їхні переваги, передавальні моделі мови мають суттєву обмеження, оскільки вони потребують завдання-специфічної донастройки або завдання-специфічного набору даних для досягнення бажаної продуктивності на завдання. Крім того, передавальні моделі мови також потребують від розробників донастройки наборів даних до сотень тисяч прикладів, специфічних для певного завдання.

Само собою зрозуміло, що видалення вимоги до завдання-специфічного набору даних та завдання-специфічної донастройки буде дуже бажаним та корисним для галузі обробки природної мови з багатьох причин.

Проблеми з існуючими попередньо натренованими передавальними моделями мови або рекурентними моделями

  • Обмеження практичності та застосовності

По-перше, вимога великого набору даних з мітками для кожного завдання обмежує застосовність та практичність мовних моделей. Мовні моделі знаходять свої застосування у широкому різноманітті завдань, починаючи від генерації короткої історії та закінчуючи генерацією прикладів на концепцію. Іноді це складне завдання зібрати великий супервізований набір даних з мітками, особливо коли процес потрібно повторити для кожного окремого завдання.

  • Використання спурійних кореляцій у тренувальних даних

Обмеження та вузькість тренувальної розподіленості, поєднані з виразністю моделі, можуть призвести до суттєвого зростання потенціалу використання спурійних кореляцій у тренувальних даних. Потенціал використання тренувальних даних може призвести до проблем під час донастройки та попередньої тренування, оскільки передавальні моделі мови розроблені для поглинання великої кількості інформації під час попередньої тренування.

Крім того, робота над попередніми моделями показала, що великі моделі не завжди призводять до кращих результатів за межами кожної окремої розподіленості. Крім того, було показано, що узагальнення, досягнуте під таким парадигмою, може призвести до поганої продуктивності, головним чином тому, що модель дуже специфічна для тренувальних даних і не може виконувати завдання поза межами тренувальних даних.

  • Порівняння з людським навчанням

Нарешті, порівнюючи передавальні моделі мови з людським навчанням, люди не потребують великого тренувального набору даних для вивчення більшості мовних завдань. Найчастіше, коротка директива у природній мові людини або малий демонстраційний приклад мовного завдання достатній для людини, щоб зрозуміти та виконати мовне завдання з певним рівнем конкурентоспроможності.

Людська здатність адаптуватися має численні практичні переваги, оскільки це дозволяє їм або змінювати різні набори навичок, або поєднувати їх для кращого виконання під час діалогу, що виходить за межі можливостей сучасних систем обробки природної мови.

Подолання проблем за допомогою мета-навчання та GPT-3

Можливим рішенням вищезазначених проблем є використання мета-навчання, концепції сучасного машинного навчання, яка дозволяє моделі розвивати більший та ширший набір навичок та здатності розпізнавати закономірності під час тренування, а потім використовувати ці навички під час інтерференції для швидкої адаптації або розпізнавання необхідного завдання.

Мета-навчання реалізується у мовній моделі архітектури за допомогою техніки, званої «навчанням у контексті», яка використовує текстовий вхід попередньо натренованої мовної моделі як завдання-специфікацію. У процесі модель умовою природної мови інструкції, і може навіть використовувати кілька демонстрацій, а модель потім очікується завершити завдання, передбачаючи наступні кроки.

Єдина суттєва проблема з мета-навчанням полягає в тому, що хоча воно показало позитивний потенціал, воно все ще поступається підходу донастройки у природній мовній архітектурі, і потребує подальшого вдосконалення, щоб стати практичним методом для подолання мовних завдань.

Крім мета-навчання, інший метод, який набуває популярності, полягає у збільшенні потенціалу трансформерних мовних моделей. За останні кілька років трансферні моделі стали свідками суттєвого зростання їхнього потенціалу з RNSS18 моделлю з 100 мільйонами параметрів, DCLT18 моделлю з 300 мільйонами параметрів, RWC19 моделлю з 1,5 мільярдами параметрів, SSP19 моделлю з 8 мільярдами параметрів, RSR19 моделлю з 11 мільярдами параметрів, та TUR20 моделлю з 17 мільярдами параметрів.

Збільшення потенціалу моделі або збільшення кількості параметрів історично призводило до покращення синтезу тексту, і було показано, що логарифмічна втрата, яка корелює з завданням, також слідує гладкому тренду покращення з масштабуванням.

Це приводить нас до моделі GPT-3, яка має понад 175 мільярдів параметрів, і коли вона була випущена, вона була трансферною мовною моделлю з найбільшим потенціалом. Давайте тепер поговоримо про модель GPT-3.

Введення у модель GPT-3

GPT-3 — це автоагресивна мовна модель з понад 175 мільярдами параметрів, випущена компанією OpenAI у 2020 році. GPT-3 також класифікується як велика мовна модель, яка, як і її попередник модель GPT-2, є декодерною трансформерною моделлю, яка використовує архітектуру, засновану на конволюції, для генерації текстових даних.

Модель GPT-3 вимірює свою власну здатність до контекстного навчання, і модель GPT-3 оцінюється на понад двох десятках наборів даних обробки природної мови та кількох нових завданнях. Для кожного окремого завдання модель GPT-3 оцінюється під трьох умов,

  • Фью-шот-навчання або контекстне навчання: У фью-шот-навчанні модель GPT-3 дозволяє так багато розподілів, які можуть добре підходити до контекстного вікна моделі.
  • Ван-шот-навчання: У ван-шот-навчанні модель дозволяє лише одну демонстрацію.
  • Зеро-шот-навчання: У зеро-шот-навчанні немає демонстрацій, і є лише інструкція у природній мові, яка подається до моделі.

Широко кажучи, модель GPT-3 досягає бажаної продуктивності у зеро-шот- та ван-шот-налаштуваннях, а у фью-шот-налаштуванні вона перевершує найкращі трансферні моделі більшості часу. Крім того, модель GPT-3 працює добре у ван-шот- та зеро-шот-налаштуваннях мовних завдань, призначених для тестування на ходу розуміння, або вимагають швидкої уваги, таких як використання нових слів після речення, або розгортання слів, або виконання арифметичних операцій. З іншого боку, коли вона працює у фью-шот-налаштуванні, модель GPT-3 генерує синтетичні статті, які нагадують людське письмо, коли подаються до людських оцінювачів.

Модель GPT-3: підхід

Модель GPT-3 використовує конвенційний підхід попередньої тренування, який складається з моделі, даних та тренування, і вона нагадує процес попередньої тренування, який слідує трансферній мовній моделі RWC-19. Модель GPT-3 масштабує розмір моделі, розмір набору даних, різноманітність набору даних та збільшує тривалість тренування.

Модель також використовує підхід контекстного навчання, який ще раз нагадує підхід моделі RWC-19, але дещо змінює речі, систематично досліджуючи різні налаштування для навчання закономірностей у контексті набору даних.

Тож, давайте почнемо з дослідження цих налаштувань та оцінимо, як модель GPT-3 працює у різних налаштуваннях.

Файн-тюнінг

Файн-тюнінг моделі був конвенційним підходом у трансферних мовних моделях, і цей підхід涉лює оновлення ваг попередньо натренованої моделі шляхом тренування моделі на супервізованому наборі даних, специфічному для бажаного завдання, і використанні сотень тисяч мітованих прикладів під час процесу.

Підхід файн-тюнінгу є корисним, оскільки він повертає сильну продуктивність по численним бенчмаркам. З іншого боку, основне обмеження використання підходу файн-тюнінгу полягає в тому, що воно потребує нового та великого набору даних для кожного окремого завдання, має потенціал для використання спурійних особливостей тренувального набору даних, може потенційно призвести до несправедливого порівняння з людською продуктивністю та поганого узагальнення для поза розподіленості.

Поточний обсяг моделі GPT-3 не реалізує підхід файн-тюнінгу через свою завдання-агностичну продуктивність, хоча файн-тюнінг можна застосувати до моделі GPT-3 у майбутньому.

Фью-шот

Фью-шот — це термін, який відноситься до налаштування, у якому модель GPT-3 подається кілька демонстрацій завдання під час інтерференції як умовою, але ваги моделі не оновлюються. У фью-шот-налаштуваннях набір даних зазвичай має приклад з контекстом та бажаною завершенням (наприклад, французьке речення та його англійський переклад). Фью-шот-налаштування надає моделі K прикладів контексту та завершення, а потім надає моделі один остаточний контекст та очікує, що модель надасть завершення.

Основна перевага використання фью-шот-налаштування полягає в тому, що воно суттєво зменшує потребу у завдання-специфічних даних та зменшує потенціал для навчання вузької розподіленості з великого набору даних, який донастроєно вузько. З іншого боку, основне обмеження використання фью-шот-навчання полягає в тому, що результати, отримані у фью-шот-налаштуванні, не на рівні, і суттєво гірші порівняно з іншими найкращими моделями, які донастроєно.

Ван-шот

У ван-шот-налаштуванні модель подається лише одна демонстрація, а все інше нагадує фью-шот-налаштування. Причина, через яку ван-шот-налаштування актуальне у трансферних мовних моделях, полягає в тому, що серед усіх трьох налаштувань ван-шот-налаштування є тим, яке нагадує спосіб, у який завдання передаються людям найкраще. Тому що у більшості завдань зазвичай надається одна демонстрація завдання, інакше може бути складно зрозуміти контекст завдання.

Зеро-шот

У зеро-шот-налаштуванні немає демонстрацій, а модель подається природною мовою інструкції, яка описує завдання. Метод зеро-шот-налаштування є тим, який пропонує максимальну зручність, є стійким та уникає спурійних кореляцій, але це також найскладніше з усіх трьох налаштувань. Тому що в деяких випадках навіть для людей складно зрозуміти контекст завдання без перегляду демонстрації спочатку.

Незважаючи на це, для деяких завдань зеро-шот-налаштування є тим, яке нагадує спосіб, у який люди виконують природні мовні завдання найкраще.

Вищезазначена фігура порівнює фью-шот-, ван-шот- та зеро-шот-налаштування при виконанні природнього мовного завдання перекладу англійського речення на французьку.

Модель GPT-3: архітектура

Модель GPT-3 використовує ту ж архітектуру, яку використовує модель GPT-2, і вона включає попередню нормалізацію, модифіковану ініціалізацію та техніку оборотного токенізації, як це було зроблено у моделі GPT з виключенням використання альтернативної стратегії для локально-бандованих розріджених шаблонів уваги та чергування густих шарів у трансформерних шарах, подібно до Sparse Transformer.

Для вивчення залежності продуктивності моделі від розміру моделі розробники тренували 8 різних розмірів моделей, які охоплюють три різні порядки величини від 125 мільйонів до понад 175 мільярдів параметрів, останній з яких називається моделлю GPT-3. Попередня робота, пов’язана з великими мовними моделями, показала, що масштабування валідної втрати з достатньою кількістю тренувальних даних повинно бути приблизно гладким степеневим законом як функція розміру. Тренування моделей різного розміру дозволяє розробникам протестувати гіпотезу як для завдань нижнього рівня, так і для валідної втрати.

Вищезазначена фігура порівнює розмір та архітектуру 8 різних моделей, використаних для розробки моделі GPT-3. Тут n(params) визначає загальну кількість тренувальних параметрів, n(layers) визначає загальну кількість шарів у моделі, d(model) визначає кількість одиниць у кожному шарі вузької частини, а d(head) визначає розміри кожної голови уваги. Контекстне вікно для кожної моделі є тим же з 2048 токенами.

Крім того, для мінімізації передачі даних між вузлами модель розділена між GPU по глибині та ширині розмірів. Архітектурні параметри для кожної моделі були обрані на основі обчислювальної ефективності та балансування навантаження для максимізації точності у макеті моделей по GPU.

Тренувальні набори даних

Зазвичай великі мовні моделі використовують набори даних, які розширилися суттєво з останніми розробками, і вони складаються з понад трильйона різних слів. Розмір набору даних достатній для тренування моделі GPT-3 без оновлення на одному й тому ж рядку кілька разів. Однак дослідження та аналіз продуктивності показали, що легкі фільтрації або нефільтровані версії набору даних Common Crawl мають низьку якість порівняно з більш кураторськими наборами даних.

Для подолання проблеми середньої якості набору даних розробники зробили 3 кроки для підвищення якості набору даних.

  1. Розробники завантажили та відфільтрували версію набору даних Common Crawl на основі діапазону, подібного до високоякісних референсних корпусів.
  2. Розробники здійснили розмиття дублікатів на рівні документів по всьому набору даних у спробі зберегти цілість їхнього вилученого валідного набору як ефективного вимірювання надмірної тренування, а також запобігти дублікатам.
  3. Розробники також додали високоякісні референсні корпуси до тренувальних даних для доповнення набору даних Common Crawl та подальшого збільшення різноманітності набору даних.

Нижче наведена фігура показує остаточну пропорцію або суміш наборів даних, використаних для тренування моделі GPT-3. Дані Common Crawl складалися з понад 45 ТБ простого тексту до фільтрації, яке було зменшено до 570 ГБ даних після фільтрації, що приблизно еквівалентно понад 400 мільярдам токенів, закодованих у байтових парах. Варто зазначити, що набори даних у тренуванні, які вважаються якісними, вибірково вибрані з більшою частотою, ніж вибірково пропорційно їхньому розміру. Таким чином, набори даних, такі як Books2 та Common Crawl, вибірково вибрано менше одного разу під час тренування, тоді як інші набори даних вибірково вибрано кілька разів. Це дозволяє моделі прийняти певну кількість надмірної тренування в обмін на тренування на високоякісних тренувальних даних.

Суттєвою проблемою великих мовних моделей, попередньо натренованих на великому інтернет-даних з можливістю запам’ятовування та вивчення великої кількості вмісту, є потенційний забруднення завдань нижнього рівня наявністю їхніх тренувальних або тестових наборів під час попередньої тренування. Для зменшення такого потенційного забруднення розробники шукали будь-які перекриття з тестовими та тренувальними наборами бенчмарків, вивчених для моделі GPT-3, та намагалися видалити ці перекриття.

Вищезазначена фігура показує загальний обчислювальний ресурс, використаний під час тренування моделі GPT-3. Модель використовує Закони масштабування для нейронних мовних моделей для тренування набагато більших моделей на менше токенів, ніж зазвичай. Таким чином, як модель GPT-3, так і модель RoBERTa-Large, яка у 10 разів менша за модель GPT-3, зайняли майже 50 петафлопс/добу обчислювальних ресурсів під час попередньої тренування.

Оцінка

Для фью-шот-навчання модель оцінює кожен приклад у валідному наборі даних, випадково вибираючи K прикладів з тренувального набору даних завдання як умову, та обмежуючи його 1 або 2 новими рядками залежно від завдання. Для Storycloze та LAMBADA модель вибирає умовні приклади з валідного набору та оцінює їх на тестовому наборі через відсутність супервізованого тренувального набору. Для Winograd існує лише один набір даних, тому умовні приклади вибираються безпосередньо з нього.

K може бути будь-яким значенням від 0 до максимальної кількості, дозволеної контекстним вікном моделі, яке є next = 2048 для всіх моделей, і воно зазвичай вміщує від 10 до 100 прикладів. Більші значення K часто призводять до кращих результатів, хоча не завжди, тому коли у моделі є тестовий набір та окремий валідний набір, модель експериментує з кількома значеннями K на валідному наборі, а потім запускає найкраще значення на тестовому наборі.

Крім того, для завдань, які вимагають вибору правильного завершення з декількох варіантів, розробники надають K прикладів правильного завершення плюс контексту, а потім надають один приклад лише контексту, а завдання порівнюються на основі ймовірності мовної моделі кожного завершення. Для завдань, які вимагають бінарної класифікації, моделі часто дають варіанти більш семантично, а також з більш значущими іменами, а іноді також формулюють завдання подібно до того, як це робить модель RSR та архітектура.

Для завдань, які вимагають вільного завершення, модель використовує пошук за допомогою промінь з ідентичними параметрами, як у рамках RSR, з променем довжини 4 та штрафом 0,6. Модель оцінюється за допомогою або коефіцієнта F1, або точного порівняння, або BLEU, залежно від стандарту для набору даних.

Результати

Вищезазначена фігура показує тренувальні криві для 8 моделей, використаних у архітектурі моделі GPT-3, як описано у попередніх розділах. Подібно до результатів мови KMH, продуктивність моделі GPT-3 слідує правильному закону при ефективному використанні тренувального обчислювального ресурсу. Є незначна відмінність від закону лише тоді, коли тренд розширюється на два порядки величини. Людям може здатися, що покращення у крос-ентропійній втраті можуть бути результатом моделювання спурійних деталей тренувального корпусу. Однак покращення у крос-ентропійній втраті призводять до послідовних виграшів у загальній продуктивності по широкому спектру мовних завдань.

Перед оцінкою 8 різних моделей на широкому діапазоні тренувальних даних набори даних згруповані у 8 різних категорій, які представляють подібні завдання. Ці категорії:

  1. Оцінка традиційних мовних моделей завдань та завдань, подібних до мовної моделі, таких як завдання Cloze або завершення речення/параграфа.
  2. Оцінка на «закритих книгах» завдань відповідей на питання.
  3. Оцінка здатності моделі перекладати між мовами (особливо у ван-шот- та фью-шот-налаштуваннях).
  4. Оцінка продуктивності моделі на завданнях Winograd Schema-подібних завдань.
  5. Оцінка на наборах даних, які включають повсякденне розуміння або питання-відповідь.
  6. Оцінка на завданнях читання розуміння.
  7. Оцінка на бенчмарку SuperGLUE.
  8. Дослідження NLI.

Мовна модель, завершення та завдання Cloze

У цьому розділі продуктивність моделі GPT-3 оцінюється на традиційних мовних моделях завдань, а також завданнях, які вимагають передбачення одного слова інтересу, або завершення параграфа чи речення, або завершення частини тексту. Давайте обговоримо їх у короткому вигляді.

Мовна модель

Модель GPT-3 обчислює зеро-шот-переплексію на наборі даних PTB або Penn Tree Bank. Модель опускає завдання, пов’язані з Вікіпедією, оскільки вони вже включені до тренувальних даних моделі, а також опускає бенчмарк у одному мільярді слів, оскільки він викликає суттєву фрагментацію набору даних у тренувальних даних. Однак набір даних PTB подолання цих питань, оскільки він передує сучасному інтернету. Найбільша модель у архітектурі моделі GPT-3 встановлює новий рівень SOTA на наборі даних PTB на помітній відстані у 15 пунктів, досягнувши переплексію у 20,50.

LAMBADA

Набір даних LAMBADA використовується для тестування моделювання моделі на довгострокові залежності у параграфах чи текстах. Це означає, що модель запитується про передбачення останнього слова речення після прочитання параграфа для контексту. Крім того, безперервне масштабування мовних моделей призводить до зменшення виграшів на цьому бенчмарку.

Модель GPT-3 досягає 76% точності на LAMBADA, маючи виграш понад 8% над попередніми найкращими моделями. Крім того, модель LAMBADA демонструє гнучкість фью-шот-навчання, оскільки вона підходить до проблеми класично з набором даних. Завершення речення у LAMBADA зазвичай є останнім словом речення, але оскільки мовна модель не може знати цього, вона призначає ймовірність не лише правильному завершенню, а й іншим продовженням у параграфі.

Крім того, коли приклади, подані до моделі GPT-3, змінені певним чином, модель повертає точність понад 86%, збільшення понад 18% над попередніми моделями. Крім того, результати також показали, що продуктивність моделі у фью-шот-налаштуванні збільшується пропорційно з збільшенням розміру моделі. Хоча ця стратегія зменшує найменшу модель у архітектурі GPT-3 на 20%, вона покращує точність основної моделі GPT-3 з 175 мільярдами параметрів на 10%.

Закриті книжки відповідей на питання

Закриті книжки відповідей на питання — це спроба виміряти здатність моделі GPT-3 відповідати на питання на основі широких фактичних знань. Оскільки такі питання часто мають велику кількість можливих запитів, завдання зазвичай досягається за допомогою системи пошуку інформації, яка дозволяє моделі знайти відповідний текст у поєднанні з моделлю, яка вчиться генерувати відповідь на запит та отриманий текст, а також завдання зазвичай досягається за допомогою системи пошуку інформації.

Вищезазначена фігура порівнює результат для моделі GPT-3 порівняно з різними моделями та запущеними на різних наборах даних. На наборі даних TriviaQA модель досягає точності 64,3% у зеро-шот-налаштуванні, тоді як вона досягає точності 68% та 71,2% у ван-шот- та фью-шот-налаштуваннях відповідно.

Чітко видно, що модель GPT-3 у зеро-шот-налаштуванні перевершує донастроєну модель T5-11B понад 14%.

Вищезазначена фігура показує, що продуктивність моделі GPT-3 зростає гладко з збільшенням розміру моделі. Продуктивність свідчить про те, що мовні моделі продовжують навчатися з набором даних, оскільки їхній потенціал зростає.

Остаточні думки

Було б безпечно сказати, що GPT-3 була революційною фазою у галузі великих мовних моделей, оскільки GPT-3 допомогла розширити межі того, що могла зробити мовна модель. Це були розробки, зроблені та перешкоди, подолані GPT-3, які проклали шлях для найбільш просунутих та точних великих мовних моделей на сьогодні, GPT-4.

Інженер за професією, письменник серцем. Kunal є технічним письменником з глибокою любов'ю та розумінням AI і ML, присвяченим спрощенню складних концепцій у цих галузях завдяки його цікавим та інформативним документам.