Штучний інтелект

GPT-3: Навчання з декількома зразками для мовної моделі?

mm

За останні кілька років галузь штучного інтелекту та машинного навчання стала свідком стрімкого зростання розробки та застосування систем обробки природної мови, оскільки дослідники змогли реалізувати практики обробки природної мови у високо гнучких і завдання-агностичних способах для задач переносу.

Спочатку це були одношарові представлення, які використовували векторні слова, а потім їх подавали до завдання-специфічної архітектури. Потім це була архітектура РНН, яка використовувала багаторівневі представлення та контекстний стан для формування кращих представлень. І найщойно ми маємо мовні моделі переносу або попередньо навчені рекурентні моделі, які повністю усунули потребу в завдання-специфічних архітектурах, донастроюючи ці мережі.

Моделі переносу мови стали важливим поворотним моментом у галузі обробки природної мови, оскільки вони призвели до величезного прогресу в складних завданнях, таких як відповіді на запитання, читання розуміння або блоки тексту, текстове наслідування та багато іншого.

Однак, незважаючи на їхні переваги, моделі переносу мови мають велику обмеження, оскільки вони вимагають завдання-специфічного донастроювання або завдання-специфічного набору даних для досягнення бажаної продуктивності на завдання. Крім того, моделі переносу мови також вимагають від розробників донастроювати набори даних до сотень тисяч прикладів, специфічних для певного завдання.

Само собою зрозуміло, що видалення вимоги до завдання-специфічного набору даних та завдання-специфічного донастроювання буде дуже бажаним і корисним для галузі обробки природної мови з багатьох причин.

Проблеми з існуючими попередньо навченими моделями переносу мови або рекурентними моделями

  • Обмеження практичності та застосовності

По-перше, вимога великого набору даних з позначеними даними для кожного завдання обмежує застосовність та практичність мовних моделей. Мовні моделі знаходять свої застосування у широкому різноманітті завдань, починаючи від генерації короткої історії та закінчуючи генерацією прикладів на концепцію. Іноді це складне завдання зібрати великий наглядовий набір даних з позначеними даними, особливо коли процес потрібно повторити для кожного окремого завдання.

  • Використання спуріозних кореляцій у навчальних даних

Обмеження та вузькість розподілу навчання, поєднані з виразністю моделі, можуть призвести до фундаментального зростання потенціалу використання спуріозних кореляцій у навчальних даних. Потенціал використання навчальних даних може призвести до проблем під час донастроювання та попереднього навчання, оскільки моделі переносу мови розроблені для поглинання великої кількості інформації під час попереднього навчання.

Крім того, робота над попередніми моделями показала, що великі моделі не завжди призводять до кращої продуктивності поза розподілом кожен раз. Крім того, також було показано, що узагальнення, досягнуте під такою парадигмою, може призвести до поганої продуктивності, головним чином тому, що модель дуже специфічна для навчальних даних і не може виконувати завдання поза межами навчальних даних.

  • Порівняння з людським навчанням

Нарешті, порівнюючи моделі переносу мови з людським навчанням, люди не потребують великого навчального набору даних, коли мова йде про вивчення більшості мовних завдань. Найчастіше, коротка директива в природній мові людини або малий демонстраційний приклад мовного завдання достатньо для людини, щоб зрозуміти і виконати мовне завдання з певним рівнем конкурентоспроможності.

Спроможність людини адаптуватися має численні практичні переваги, оскільки вона дозволяє людям або перемикатися між різними наборами навичок, або змішувати їх, щоб краще виконувати завдання під час діалогу, що є поза можливостями сучасних систем обробки природної мови.

Подолання проблем з мета-навчанням та GPT-3

Можливим рішенням вищезгаданих проблем є використання мета-навчання, концепції сучасного машинного навчання, яка дозволяє моделі розвивати більший і ширший набір навичок та здатність розпізнавати закономірності під час навчання, а потім використовує ці навички під час інтерференції для швидкої адаптації або розпізнавання необхідного завдання.

Мета-навчання реалізується в архітектурі мовної моделі за допомогою техніки, званої «навченням у контексті», яка використовує текстовий вхід попередньо навченої мовної моделі як завдання-специфікацію. У процесі модель умовою природною мовою інструкції, і може навіть використовувати кілька демонстрацій, а потім модель очікується завершити завдання, передбачаючи наступні кроки.

Єдина велика проблема з мета-навчанням полягає в тому, що хоча воно показало позитивний потенціал, воно все ще поступається підходу донастроювання в архітектурі природної мови, і йому потрібно подальше покращення, щоб стати практичним методом для подолання мовних завдань.

Крім мета-навчання, інший метод, який набуває популярності, полягає у збільшенні потенціалу трансформерних мовних моделей. За останні кілька років трансферні моделі стали свідками суттєвого збільшення їхнього потенціалу з RNSS18 моделлю з 100 мільйонами параметрів, DCLT18 моделлю з 300 мільйонами параметрів, RWC19 моделлю з 1,5 мільярдами параметрів, SSP19 моделлю з 8 мільярдами параметрів, RSR19 моделлю з 11 мільярдами параметрів, і TUR20 моделлю з 17 мільярдами параметрів.

Збільшення потенціалу моделі або збільшення кількості параметрів історично призводило до покращення синтезу тексту, і було показано, що логарифмічна втрата, яка корелює з завданням, також слідує гладкому закону потужності як функція розміру.

Це приводить нас до моделі GPT-3, яка має понад 175 мільярдів параметрів, і коли вона була випущена, вона була моделлю переносу мови з найбільшою потужністю. Давайте тепер поговоримо про модель GPT-3.

Введення у модель GPT-3

GPT-3 — це автоагресивна мовна модель з понад 175 мільярдами параметрів, випущена компанією OpenAI у 2020 році. GPT-3 також класифікується як большая мовна модель, яка, як і її попередник модель GPT-2, є декодер- тільки глибокою трансформерною моделлю, яка використовує архітектуру, засновану на конволюції, для генерації текстових даних.

Модель GPT-3 вимірює свою власну здатність до контекстного навчання, і модель GPT-3 оцінюється на понад два десятки наборів даних обробки природної мови та декілька нових завдань. Для кожного окремого завдання модель GPT-3 оцінюється під трьома умовами,

  • Навчання з декількома зразками або навчання у контексті: у навчанні з декількома зразками модель GPT-3 дозволяє так багато розподілів, які можуть добре поміститися у вікно контексту моделі.
  • Навчання з одним зразком: у навчанні з одним зразком модель дозволяє тільки одну демонстрацію.
  • Навчання з нульовим зразком: у навчанні з нульовим зразком немає демонстрацій, і є тільки інструкція природною мовою, яка подається моделі.

Широко кажучи, модель GPT-3 досягає бажаної продуктивності у нульовому та одному зразках, і у навчанні з декількома зразками вона перевершує моделі переносу стану мистецтва більшість часу. Крім того, модель GPT-3 добре виконує завдання природної мови, призначені для тестування на ходу розуміння, або вимагають швидкої уваги, як використання нових слів після речення, розгортання слів або виконання арифметичних операцій. З іншого боку, коли вона працює у навчанні з декількома зразками, модель GPT-3 генерує синтетичні статті, які нагадують людське письмо, коли передаються через людських оцінювачів.

Модель GPT-3: підхід

Модель GPT-3 використовує конвенційний підхід попереднього навчання, який складається з моделі, даних та навчання, і він нагадує процес попереднього навчання, який слідував моделі переносу RWC-19. Модель GPT-3 збільшує розмір моделі, розмір набору даних, різноманітність набору даних та збільшує тривалість навчального періоду.

Модель також використовує підхід навчання у контексті, який ще раз нагадує підхід моделі RWC-19, але дещо змінює речі, систематично досліджуючи різні налаштування для навчання закономірностей у контексті набору даних.

Тож, давайте почнемо з дослідження цих налаштувань та оцінки того, як модель GPT-3 виконує різні налаштування.

Донастроювання

Донастроювання моделі було конвенційним підходом у моделях переносу мови, і цей підхід включає оновлення ваг попередньо навченої моделі шляхом навчання моделі на наглядовому наборі даних, специфічному для бажаного завдання, і сотень тисяч позначених прикладів використовуються під час процесу.

Підхід донастроювання є корисним, оскільки він повертає сильну продуктивність у багатьох бенчмарках. З іншого боку, основне обмеження використання підходу донастроювання полягає в тому, що воно вимагає нового великого набору даних для кожного окремого завдання, має потенціал використовувати спуріозні особливості навчального набору даних, може потенційно призвести до несправедливого порівняння з людською продуктивністю та поганого узагальнення поза розподілом.

Поточний обсяг моделі GPT-3 не реалізує підхід донастроювання через свою завдання-агностичну продуктивність, хоча донастроювання можна застосувати до моделі GPT-3 у майбутньому.

Навчання з декількома зразками

Навчання з декількома зразками — це термін, який відноситься до налаштування, у якому модель GPT-3 отримує кілька демонстрацій завдання під час інтерференції як умову, але ваги моделі не оновлюються. У навчанні з декількома зразками набір даних зазвичай має приклад з контекстом та бажаною завершенням (наприклад, французьке речення та його англійський переклад). Навчання з декількома зразками надає моделі K прикладів контексту та завершення, і потім надає моделі один остаточний контекст та очікує, що модель надасть завершення.

Основна перевага використання налаштування навчання з декількома зразками полягає в тому, що воно суттєво зменшує потребу у завдання-специфічних даних та зменшує потенціал навчання вузького розподілу з великого набору даних, який донастроюється вузько. З іншого боку, основне обмеження навчання з декількома зразками полягає в тому, що результати, надані у навчанні з декількома зразками, не дотягують до рівня інших моделей стану мистецтва, які донастроюються.

Навчання з одним зразком

У навчанні з одним зразком модель отримує тільки одну демонстрацію, а все інше є подібним до навчання з декількома зразками. Причина, по якій навчання з одним зразком є актуальним у моделях переносу мови, полягає в тому, що серед усіх трьох налаштувань навчання з одним зразком є тим, яке найбільш нагадує спосіб, у який завдання передаються людям. Це тому, що у більшості завдань зазвичай надається одна демонстрація завдання, інакше може бути складно зрозуміти контекст завдання.

Навчання з нульовим зразком

У навчанні з нульовим зразком немає демонстрацій, а модель отримує інструкцію природною мовою, яка описує завдання. Метод навчання з нульовим зразком є тим, який пропонує максимальну зручність, є стійким і уникнути спуріозних кореляцій, але це також найскладніше з усіх трьох налаштувань. Це тому, що в деяких випадках навіть для людей складно зрозуміти контекст завдання без демонстрації спочатку.

Незважаючи на це, для деяких завдань навчання з нульовим зразком є тим, яке найбільш нагадує спосіб, у який люди виконують завдання природної мови.

Вищезгадана фігура порівнює налаштування навчання з декількома зразками, одним зразком та нульовим зразком при виконанні завдання природної мови з перекладом англійського речення на французьку.

GPT-3: архітектура моделі

Модель GPT-3 використовує ту ж архітектуру, яку використовувалася у моделі GPT-2, і вона включає попередню нормалізацію, модифіковану ініціалізацію та техніку оборотної токенізації, як це було зроблено у моделі GPT з виключенням використання альтернативної стратегії для локально-бандованих розріджених шаблонів уваги та чергування щільних шарів у шарах трансформера, подібно до Sparse Transformer.

Для вивчення залежності продуктивності моделі від розміру моделі розробники тренували 8 різних розмірів моделей, які охоплюють три різні порядки величини від 125 мільйонів до понад 175 мільярдів параметрів, останній з яких називається моделлю GPT-3. Попередня робота, пов’язана з моделями великих мов, показала, що масштабування валідаційної втрати з достатньою кількістю навчальних даних повинно бути приблизно гладким законом потужності як функція розміру. Тренування моделей різного розміру дозволяє розробникам протестувати цю гіпотезу як для завдань нижнього рівня, так і для валідаційної втрати.

Вищезгадана фігура порівнює розмір та архітектуру 8 різних моделей, використаних для розробки моделі GPT-3. Тут n(params) визначає загальну кількість тренованих шаблонів, n(layers) визначає загальну кількість шарів у моделі, d(model) визначає кількість одиниць у кожному шарі вузької частини, а d(head) визначає розмір кожного шаблону уваги. Вікно контексту для кожної моделі є одним і тим же з 2048 токенами.

Крім того, для мінімізації передачі даних між вузлами модель розділена між графічними процесорами по глибині та ширині розмірів. Параметри архітектури для кожної моделі були обрані на основі обчислювальної ефективності та балансування навантаження для максимізації точності у макеті моделей по графічним процесорам.

Набори даних для навчання

Зазвичай великі мовні моделі використовують набори даних, які розширилися суттєво з останніми розробками, і вони закінчуються у наборі даних Common Crawl, який складається з понад одного трильйона різних слів. Розмір набору даних достатній для тренування моделі GPT-3 без оновлення на одному й тому ж рядку кілька разів. Однак дослідження та аналіз продуктивності показали, що легкі фільтри або нефільтровані версії набору даних Common Crawl мають низьку якість порівняно з більш кураторськими наборами даних.

Для подолання проблеми середньої якості набору даних розробники зробили 3 кроки для підвищення якості набору даних.

  1. Розробники завантажили та відфільтрували версію набору даних Common Crawl на основі діапазону, подібного до високоякісних наборів даних-референсів.
  2. Розробники здійснили розмиття дублікатів на рівні документів по всьому набору даних у спробі зберегти цілість їхнього набору даних для валідації як ефективного заходу проти переобучення та запобігання надмірності.
  3. Розробники також додали високоякісні набори даних-референси до навчальних даних для доповнення набору даних Common Crawl та подальшого збільшення різноманітності набору даних.

Нижче наведена фігура показує остаточну пропорцію або суміш наборів даних, використаних для тренування моделі GPT-3. Дані Common Crawl складалися з понад 45 ТБ простого тексту до фільтрації, який був зменшений до 570 ГБ даних після фільтрації, приблизно еквівалентно понад 400 мільярдам токенів, закодованих у байтових парах. Варто відзначити, що набори даних у навчанні, які вважаються вищої якості, вибірково вибіркові частіше, а не вибіркові пропорційно їхньому розміру. В результаті набори даних, такі як Books2 та Common Crawl, вибіркові менше одного разу під час тренування, тоді як інші набори даних вибіркові кілька разів. Це дозволяє моделі прийняти певну кількість переобучення в обмін на тренування на навчальних даних вищої якості.

Істотною проблемою великих мовних моделей, попередньо тренованих на великому обсязі інтернет-даних з можливістю запам’ятовувати та вивчати велику кількість вмісту, є потенційний ризик забруднення завдань нижнього рівня наявністю їхніх наборів даних для розробки чи тестування під час процесу попереднього тренування. Для зменшення такого потенційного ризику розробники шукали будь-які перекриття з наборами даних для розробки та тестування, вивчених для моделі GPT-3, та намагалися видалити ці перекриття.

Вищезгадана фігура показує загальний обчислювальний ресурс, використаний під час тренування моделі GPT-3. Модель використовує закони масштабування для мовних моделей нейронної мережі для тренування набагато більших моделей на менше токенів, ніж зазвичай. В результаті як модель GPT-3, так і модель RoBERTa-Large, яка у 10 разів менша за модель GPT-3, використовували майже 50 петафлопс/день обчислювальних ресурсів під час процесу попереднього тренування.

Оцінка

Для навчання з декількома зразками модель оцінює кожен приклад, присутній у наборі даних для оцінки, шляхом випадкового вибору K прикладів з набору даних завдання як умову та обмеження їх одним або двома новими рядками залежно від завдання. Для Storycloze та LAMBADA модель вибирає умовні приклади з набору даних для розробки та оцінює їх на тестовому наборі через відсутність наглядового набору даних для тренування.

K може бути будь-якою величиною від 0 до максимальної кількості, дозволеної вікном контексту моделі, яке становить next = 2048 для всіх моделей, і воно зазвичай вміщує від 10 до 100 прикладів. Більші значення K часто призводять до кращих результатів, але не завжди, тому коли у моделі є тестовий набір та окремий набір даних для розробки, модель експериментує з кількома значеннями K на наборі даних для розробки, а потім запускає найкраще значення на тестовому наборі.

Крім того, у завданнях, які вимагають вибору правильного завершення з кількох варіантів, розробники надають K прикладів коректного завершення плюс контекст та завершення, а потім надають завдання контексту, і завдання порівнюються на основі ймовірності мовної моделі кожного завершення. Для завдань, які вимагають бінарної класифікації, моделі часто надають варіанти більш семантично, з більш значущими іменами, і потім обробляють завдання як вибір з кількох варіантів, і іноді також формують завдання подібно до того, як це робить модель RSR та архітектура.

Для завдань, які вимагають вільного завершення, модель використовує пошук за проміжним результатом з однаковими параметрами, як у рамках RSR, з проміжним результатом довжиною 4 та штрафом 0,6. Модель оцінюється за допомогою співвідношення F1, точного співпадіння або BLEU, залежно від стандарту для набору даних.

Результати

Вищезгадана фігура показує криві тренування для 8 моделей, використаних у архітектурі моделі GPT-3, як описано у попередніх розділах. Подібно до результатів моделі мови KMH, продуктивність моделі GPT-3 слідує законові, коли використовується тренувальний обчислювальний ресурс. Є невелика відмінність від закону лише тоді, коли тренд розширюється на два порядки величини. Це може здатися людям, що покращення крос-ентропійної втрати можуть бути результатом моделювання спуріозних деталей навчального корпусу. Однак покращення крос-ентропійної втрати призводять до послідовних здобутків у загальній продуктивності по широкому спектру завдань обробки природної мови.

Перед оцінкою 8 різних моделей на широкому діапазоні навчальних даних набори даних групуються у 8 різних категорій, які представляють подібні завдання. Ці категорії:

  1. Оцінка традиційних завдань мовного моделювання та завдань, подібних до мовного моделювання, таких як завдання Cloze або завершення речення/параграфа.
  2. Оцінка завдань «закритої книги» з відповідями на запитання.
  3. Оцінка здатності моделі перекладати між мовами (особливо з одним зразком та декількома зразками).
  4. Оцінка продуктивності моделі на завданнях, подібних до схеми Вінограда.
  5. Оцінка на наборах даних, які включають розсудливість чи відповіді на запитання.
  6. Оцінка на завданнях читання розуміння.
  7. Оцінка на наборі бенчмарків SuperGLUE.
  8. Оцінка на NLI.

Моделювання мови, завершення та завдання Cloze

У цьому розділі продуктивність моделі GPT-3 оцінюється на традиційних завданнях мовного моделювання, а також завданнях, які вимагають передбачення одного слова інтересу, завершення речення чи параграфа чи завершення частини тексту. Давайте обговоримо їх у короткому деталі.

Мовне моделювання

Модель GPT-3 обчислює нульову оцінку перплексії на наборі даних PTB або Penn Tree Bank. Модель опускає завдання, пов’язані з Вікіпедією, оскільки вони вже включені до навчальних даних моделі, а також опускає бенчмарк у одному мільярді слів, оскільки це призводить до суттєвої фрикції набору даних, який перебуває у навчальних даних. Однак набір даних PTB подолання цих питань, оскільки він передує сучасному інтернету. Найбільша модель у архітектурі моделі GPT-3 встановлює новий рівень стану мистецтва на наборі даних PTB з помітним маржою у 15 пунктів та досягає перплексії 20,50.

LAMBADA

Набір даних LAMBADA використовується для тестування моделювання моделі довгострокових залежностей у параграфах чи текстах. Це означає, що модель запитується передбачити останнє слово речення після читання параграфа для контексту. Крім того, безперервне масштабування мовних моделей призводить до зменшення доходів на цьому бенчмарку.

Модель GPT-3 досягає 76% точності на LAMBADA та має виграш понад 8% над попередніми найкращими моделями. Крім того, модель LAMBADA демонструє гнучкість навчання з декількома зразками, оскільки вона подолала проблему класично з набором даних. Завершення речення у LAMBADA зазвичай є останнім словом речення, але оскільки мовна модель не може знати цього, вона присвоює ймовірність не тільки правильному завершенню, але й іншим продовженням у параграфі.

Крім того, коли приклади, подані моделі GPT-3, змінені певним чином, модель повертає точність понад 86%, збільшення понад 18% порівняно з попередніми моделями. Крім того, результати також показали, що продуктивність моделі у навчанні з декількома зразками збільшується пропорційно з збільшенням розміру моделі. Хоча ця стратегія зменшує найменшу модель у архітектурі GPT-3 на 20%, вона покращує точність основної моделі GPT-3 з 175 мільярдами параметрів на 10%.

Відповіді на запитання у «закритій книзі»

Відповіді на запитання у «закритій книзі» — це спроба виміряти здатність моделі GPT-3 відповідати на запитання на основі широких фактичних знань. Через те, що такі запитання часто мають велику кількість можливих запитів, завдання зазвичай досягається за допомогою системи пошуку інформації, яка дозволяє моделі знайти відповідний текст у поєднанні з моделлю, яка вчиться генерувати відповідь на запитання та отриманий текст.

Вищезгадана фігура порівнює результат для моделі GPT-3 порівняно з різними моделями та працює на різних наборах даних. На наборі даних TriviaQA модель досягає оцінки точності 64,3% у нульовому зразковому налаштуванні, тоді як вона досягає оцінок точності 68% та 71,2% у одному зразковому та навчанні з декількома зразками відповідно.

Чітко видно, що модель GPT-3 у нульовому зразковому налаштуванні перевершує донастроювану модель T5-11B понад 14%.

Вищезгадана фігура показує, що продуктивність моделі GPT-3 зростає гладко з збільшенням розміру моделі. Продуктивність свідчить про те, що мовні моделі продовжують вивчати з набору даних, оскільки їхній потенціал зростає.

Остаточні думки

Було б безпечно сказати, що GPT-3 була революційною фазою в галузі великих мовних моделей, оскільки GPT-3 допомогла розширити межі того, що може зробити мовна модель. Це були розробки, зроблені та перешкоди, подолані GPT-3, які проклали шлях для найбільш просунутих та точних великих мовних моделей на сьогодні, GPT-4.

Інженер за професією, письменник серцем. Kunal є технічним письменником з глибокою любов'ю та розумінням AI і ML, присвяченим спрощенню складних концепцій у цих галузях завдяки його цікавим та інформативним документам.