заглушки GPT-3: Мало можливостей для вивчення мовної моделі? - Об'єднуйтесь.AI
Зв'язатися з нами

Штучний Інтелект

GPT-3: Мало можливостей для вивчення мовної моделі?

mm

опублікований

 on

За останні кілька років індустрія штучного інтелекту та машинного навчання стала свідком стрімкого зростання розвитку та застосування систем НЛП, оскільки дослідники змогли впровадити практики НЛП дуже гнучкими способами, що не залежать від завдань, для передачі завдань униз. 

Спочатку це були одношарові представлення, які використовували вектори слів, а потім були передані в архітектуру для конкретного завдання. Далі, це була архітектура RNN, яка використовувала багаторівневі представлення та контекстний стан для формування кращих представлень. А нещодавно у нас є моделі мови передачі або попередньо навчені рекурентні моделі, які повністю позбавили потреби в архітектурах, що відповідають конкретним завданням, шляхом тонкого налаштування цих мереж. 

Моделі мови передачі виявилися головною поворотною точкою в індустрії НЛП, оскільки вони призвели до величезного прогресу в складних завданнях, таких як відповіді на запитання, розуміння прочитаного або блоків тексту, текстове втягування та багато іншого. 

Однак, незважаючи на свої переваги, моделі мови передачі мають суттєві обмеження, оскільки вони вимагають тонкого налаштування для конкретного завдання або спеціального набору даних для досягнення бажаної продуктивності завдання. Крім того, моделі мови передачі також вимагають від розробників точного налаштування наборів даних до сотень тисяч прикладів, специфічних для конкретного завдання. 

Само собою зрозуміло, що скасування вимоги щодо набору даних для конкретного завдання та тонкого налаштування буде дуже бажаним і корисним для індустрії НЛП з багатьох причин. 

Проблеми з існуючими попередньо навченими моделями мови передачі або повторюваними моделями

  • Обмеження практичності та застосовності

Перш за все, вимога великого набору даних із позначеними даними для кожного завдання обмежує застосовність і практичність мовних моделей. Мовні моделі знаходять своє застосування в широкому спектрі завдань, починаючи від створення короткого оповідання до виправлення граматичних помилок і до створення прикладів концепції. Часом зібрати великий контрольований набір даних із позначеними даними є складним завданням, особливо коли процес потрібно повторювати для кожного окремого завдання. 

  • Використання помилкових кореляцій у навчальних даних

Обмеження та вузькість розподілу навчання в поєднанні з виразністю моделі можуть призвести до фундаментального зростання потенціалу використання помилкових кореляцій у навчальних даних. Потенціал використання навчальних даних може призвести до проблем під час точного налаштування та парадигми попереднього навчання, оскільки моделі мови передачі розроблені таким чином, щоб поглинати велику кількість інформації під час попереднього навчання. 

Крім того, робота над попередніми моделями показала, що великі моделі не призводять до кращого виходу з розповсюдження щоразу. Крім того, було також зазначено, що узагальнення, досягнуте за такою парадигмою, може призвести до низької продуктивності насамперед через те, що модель дуже специфічна для навчальних даних і не може добре працювати в ситуаціях, що виходять за межі навчальних даних. 

  • Порівняння з людським навчанням

Нарешті, якщо порівнювати з моделями передачі мови, людям не потрібен великий набір навчальних даних, коли мова йде про вивчення більшості мовних завдань. Найчастіше коротка вказівка ​​природною мовою людини або невелика демонстрація мовного завдання є достатніми для того, щоб людина зрозуміла та виконала мовне завдання з певним рівнем конкурентоспроможності. 

Здатність людини адаптуватися має численні практичні переваги, оскільки вона дозволяє їй або перемикатися між різними наборами навичок, або змішувати їх разом, щоб краще працювати під час діалекту, що виходить за межі можливостей сучасних систем НЛП. 

Вирішення проблем за допомогою метанавчання та GPT-3

Можливим вирішенням вищезгаданих проблем є використання метанавчання, концепції сучасного машинного навчання, яка дозволяє моделі розвивати більший і ширший набір навичок і здатність розпізнавати шаблони під час навчання, а потім використовувати ці набуті здібності під час втручання для адаптації швидко або розпізнати потрібне завдання. 

Метанавчання реалізується в архітектурі мовної моделі за допомогою техніки під назвою «навчання в контексті», який використовує введення тексту попередньо навченої моделі мови як специфікацію завдання. У процесі модель обумовлює інструкції природної мови та може навіть використовувати кілька демонстрацій, а потім очікується, що модель виконає решту завдання, передбачивши наступні кроки. 

Єдина серйозна проблема з Meta Learning полягає в тому, що, хоча воно продемонструвало позитивний потенціал, воно все ще поступається підходу тонкого налаштування в архітектурі природної мови, і потребує подальшого вдосконалення, щоб стати практичним методом подолання мовних завдань. 

На додаток до метанавчання, ще один метод, який набирає популярності, — це збільшення можливостей трансформаторних мовних моделей. За останні кілька років моделі передачі даних суттєво збільшили свою пропускну здатність RNSS18 модель зі 100 мільйонами параметрів DCLT18 модель зі 300 мільйонами параметрів RWC19 модель з 1.5 мільярдами параметрів SSP19 модель з 8 мільярдами параметрів RSR19 модель з 11 мільярдами параметрів, і TUR20 модель із 17 мільярдами параметрів. 

Збільшення ємності моделі або збільшення параметрів історично призводило до покращення синтезу тексту, і є вказівки на те, що втрата журналу, яка корелює з подальшими завданнями, також має плавну тенденцію до покращення з масштабом. 

Це підводить нас до моделі GPT-3, яка має понад 175 мільярдів параметрів, і коли вона була запущена, це була модель мови передачі з найбільшою місткістю. Тепер поговоримо про модель GPT-3. 

Вступ до моделі GPT-3

GPT-3 — це автоагресивна модель мови з понад 175 мільярдами параметрів, яка була випущена OpenAI у 2020 році. GPT-3 також класифікується як велика модель мови що, як і її попередник, модель GPT-2 є трансформаторною моделлю глибокого навчання лише декодера, яка використовує архітектуру на основі згортки для створення текстових даних. 

Модель GPT-3 вимірює власні здібності до контекстного навчання, а модель GPT-3 оцінюється на більш ніж двох десятках наборів даних NLP і кількох нових завдань. Для кожного окремого завдання модель GPT-3 оцінюється за трьома умовами,

  • Навчання за кілька кадрів або навчання в контексті: За кілька етапів навчання модель GPT-3 допускає стільки розповсюджень, які добре вписуються в контекстне вікно моделі. 
  • Одноразове навчання: При навчанні одним кадром модель дозволяє лише одну демонстрацію. 
  • Zero Shot Навчання: У нульовому навчанні немає демонстрацій, а є лише інструкція природною мовою, яка передається моделі. 

Широко кажучи, то Модель ГПТ-3 досягає бажаної продуктивності в налаштуваннях нульового і одноразового режимів, а в налаштуваннях кількох пострілів у більшості випадків перевершує найсучасніші моделі перенесення. Крім того, модель GPT-3 добре працює в одноразових і нульових налаштуваннях у завданнях природної мови, призначених для перевірки міркувань на ходу, або вимагає швидкої уваги, як-от використання нових слів після речення, або розшифрування слів, або виконання арифметики операції. З іншого боку, коли модель GPT-3 функціонує в режимі кількох кадрів, вона генерує синтетичні новинні статті, які нагадують написане людиною, якщо пройти через людей-оцінювачів. 

Модель GPT-3: Підхід

Модель GPT-3 використовує звичайний підхід до підготовки, який включає модель, дані та навчання, і нагадує процес попереднього навчання, за яким слідує модель мови передачі RWC-19. Модель GPT-3 збільшує розмір моделі, розмір набору даних, різноманітність набору даних і збільшує тривалість періоду навчання. 

Модель також використовує підхід до навчання в контексті, який знову нагадує підхід моделі RWC-19, але дещо змінює речі шляхом систематичного вивчення різних налаштувань для шаблонів навчання в контексті набору даних. 

Отже, давайте почнемо з вивчення цих налаштувань і оцінимо, як модель GTP-3 працює на різних налаштуваннях. 

Точне налаштування

Точне налаштування моделі було традиційним підходом до передачі мовні моделі, і цей підхід передбачає оновлення вагових коефіцієнтів попередньо навченої моделі шляхом навчання моделі на контрольованому наборі даних, який відповідає бажаному завданню, і під час процесу використовуються сотні тисяч позначених прикладів. 

Підхід до тонкого налаштування є вигідним, оскільки він забезпечує високу продуктивність у багатьох тестах. З іншого боку, основним обмеженням використання підходу точного налаштування є те, що він вимагає нового великого набору даних для кожного окремого завдання, має потенціал для використання фальшивих функцій набору даних для навчання, потенційно може призвести до несправедливого порівняння з продуктивністю людини , і погане узагальнення для нерозповсюдження. 

Поточний обсяг моделі GPT-3 не реалізує підхід тонкого налаштування через його продуктивність, що не залежить від завдань, хоча в майбутньому до моделі GPT-3 можна застосувати точне налаштування. 

Кілька пострілів

Кілька пострілів — це термін, який стосується налаштування, коли модель GPT-3 отримує кілька демонстрацій завдання під час втручання як кондиціонування, але ваги моделі не оновлюються. У налаштуваннях кількох кадрів набір даних зазвичай має приклад із контекстом і бажаним завершенням (наприклад, французьке речення та його переклад англійською). Налаштування кількох знімків дає модель K приклади контексту та завершення, а потім надає моделі один остаточний контекст і очікує, що модель забезпечить завершення. 

Основна перевага використання параметра кількох кадрів полягає в тому, що воно значно зменшує потребу в даних, пов’язаних із конкретним завданням, а також зменшує можливість вивчення вузького розподілу з великого набору даних, який точно налаштовано. З іншого боку, основним недоліком використання кількох кадрів навчання є те, що результати, отримані в налаштуваннях кількох кадрів, не відповідають вимогам і значно погані порівняно з іншими сучасними моделями, які точно налаштовані. 

One Shot

У режимі одного кадру модель забезпечується лише одноразовою демонстрацією, а решта аналогічно режиму кількох знімків. Причина, чому налаштування одного кадру є релевантним у моделях мови передачі, полягає в тому, що з усіх трьох параметрів один кадр є тим, який найкраще нагадує спосіб, у який завдання доносяться до людей. Це тому, що в більшості завдань прийнято давати одну демонстрацію завдання, інакше може бути важко зрозуміти контекст завдання. 

Нульовий постріл

У налаштуваннях нульового удару немає демонстрацій, і модель отримує інструкцію природною мовою, яка описує завдання. Метод нульового знімка забезпечує максимальну зручність, є надійним і також уникає помилкової кореляції, але він також є найскладнішим з усіх трьох налаштувань. Це тому, що в деяких випадках навіть нам, людям, важко зрозуміти контекст завдання, не побачивши попередньо демонстрації. 

Незважаючи на це, для деяких завдань налаштування нульового удару є тим, що найближче нагадує те, як люди виконують завдання природної мови. 

Наведений вище малюнок порівнює параметри кількох, одноразових і нульових дій під час виконання завдання природною мовою взяття англійського речення та перекладу його французькою мовою. 

GPT-3: Архітектура моделі

Модель GPT-3 використовує ту саму архітектуру, що й у моделі GPT-2, і включає методи попередньої нормалізації, модифікованої ініціалізації та оборотної токенізації, як вони використовувалися в моделі GPT, за винятком використання альтернативного стратегія для розріджених шаблонів уваги з локальними смугами та чергування щільних шарів у шарах трансформатора, подібних до розрідженого трансформатора. 

Щоб вивчити залежність продуктивності моделі від її розміру, розробники навчили 8 різних розмірів моделі, які варіюються в межах трьох різних порядків величини від 125 мільйонів до понад 175 мільярдів параметрів, останній із яких називається моделлю GPT-3. . Попередня робота, пов’язана з моделями LLM, показала, що масштабування втрат перевірки з достатньою кількістю навчальних даних повинно бути наближеним гладким степеневим законом як функцією розміру. Навчальні моделі різного розміру дозволяють розробникам перевірити гіпотезу як для мовних завдань нижчої течії, так і для втрат перевірки. 

Наведений вище малюнок порівнює розмір і архітектуру 8 різних моделей, використаних для розробки GPT-3. Тут n(params) визначає загальну кількість шаблонів, які можна навчити, n(layers) визначає загальну кількість шарів у моделі, d(model) визначає кількість одиниць у кожному шарі вузького місця, а d(head) визначає розміри кожної голови уваги. Контекстне вікно для кожної моделі однакове з 2048 токенами. 

Крім того, щоб мінімізувати передачу даних між вузлами, модель розділена на графічні процесори по глибині та ширині розмірів. Архітектурні параметри для кожної моделі вибрано на основі обчислювальної ефективності та балансування навантаження, щоб максимізувати точність у розташуванні моделей на графічних процесорах. 

Навчальні набори даних

Як правило, великі мовні моделі використовують набори даних, які значно розширилися завдяки останнім розробкам, і їх кульмінацією є набір даних Common Crawl, який складається з понад трильйона різних слів. Розмір набору даних є достатнім для навчання моделі GPT-3 без багаторазового оновлення однієї послідовності. Однак дослідження та аналіз продуктивності показують, що версії з незначним фільтром або нефільтровані версії набору даних Common Crawl мають низьку якість порівняно з більш підібраним набором даних. 

Щоб вирішити проблему середньої якості набору даних, розробники зробили 3 кроки для підвищення якості набору даних. 

  1. Розробники завантажили та відфільтрували версію набору даних Common Crawl на основі діапазону, подібного до високоякісних довідкових корпусів. 
  2. Розробники виконали нечітке дублювання на рівні документа в наборі даних, намагаючись зберегти цілісність свого відкладеного набору перевірки як ефективного вимірювання переобладнання, а також запобігти надмірності. 
  3. Розробники також додали високоякісні довідкові корпуси до навчальних даних, щоб розширити набір даних Common Crawl і ще більше збільшити різноманітність набору даних. 

На наступному малюнку показано остаточну пропорцію або суміш наборів даних, використаних для навчання моделі GPT-3. Дані Common Crawl складалися з понад 45 ТБ відкритого тексту до фільтрації, який було зменшено до 570 ГБ даних після фільтрації, що приблизно еквівалентно понад 400 мільярдам байт-пар закодованих токенів. Варто зазначити, що набори даних у навчанні, які вважаються якіснішими, відбираються з більшою частотою, а не пропорційно вибірки набору даних до їх розміру. У результаті вибірка таких наборів даних, як Books2 і Common Crawl, здійснюється рідше одного разу під час навчання, тоді як вибірка інших наборів даних здійснюється кілька разів. Це дозволяє моделі прийняти невелику кількість переобладнання в обмін на навчання на навчальних даних з вищою якістю. 

Серйозним занепокоєнням у зв’язку з великими мовними моделями, які попередньо навчені на великій кількості Інтернет-даних із здатністю запам’ятовувати та вивчати велику кількість вмісту, є потенційне зараження подальших завдань через перегляд їх наборів розробок або тестування під час попередньої підготовки. тренувальний процес. Щоб зменшити таке потенційне забруднення, розробники шукали будь-які збіги з наборами тестів і розробок тестів, досліджених для GPT-3, і намагалися усунути ці збіги. 

На зображенні вище показано загальні обчислення, використані під час навчання моделі GPT-3. Модель використовує закони масштабування для моделей нейронних мов для навчання набагато більших моделей на меншій кількості токенів, ніж зазвичай. У результаті як модель GPT-3, так і модель RoBERTa-Large, яка в 10 разів менша за модель GPT-3, вимагали майже 50 петафлопсів/день обчислень під час процесу попереднього навчання. 

Оцінка

Для невеликого навчання модель оцінює кожен приклад, присутній у наборі оціночних даних, вибираючи K прикладів випадковим чином із навчального набору даних цього завдання як кондиціонування, і розмежовує його 1 або 2 символами нового рядка залежно від завдання. Для Storycloze і LAMBADA модель малює приклади кондиціонування з набору для розробки та оцінює його на тестовому наборі через відсутність контрольованого набору для навчання. Для Winograd існує лише один набір даних, тому зразки кондиціонування беруться безпосередньо з нього. 

K може бути будь-яким значенням у діапазоні від 0 до максимальної величини, дозволеної вікном контексту моделі, тобто next = 2048 для всіх моделей, і зазвичай вміщує від 10 до 100 прикладів. Більші значення K часто призводять до кращих результатів, але не завжди, тому, коли модель має тестовий набір і доступний окремий набір для розробки, модель експериментує з кількома значеннями K у наборі для розробки, і на основі результатів , він має найкраще значення в тестовому наборі. 

Крім того, у завданнях, які вимагають вибору правильного завершення з кількох варіантів, розробники надають K прикладів виправлення та завершення контексту, а потім надаючи лише один приклад контексту, а потім завдання порівнюють на основі ймовірності LM. кожного завершення. Для завдань, які вимагають двійкової класифікації, моделі часто надають варіанти більш семантично та з більш значущими іменами, а потім розглядають завдання як множинний вибір, а іноді також формують завдання, подібне до того, що робить модель та архітектура RSR. 

Для завдань, які вимагають завершення у довільній формі, модель використовує пошук за променем з ідентичними параметрами, що використовуються в рамках RSR, з променем довжини 4 і штрафом 0.6. Потім модель оцінюється за допомогою оцінки схожості F1, точної відповідності або BLEU, залежно від стандарту для набору даних. 

результати

На малюнку вище показано навчальні криві для 8 моделей, що використовуються в архітектурі моделі GPT-3, як описано в попередніх розділах. Подібно до результатів мовної моделі KMH, продуктивність моделі GPT-3 відповідає правильному закону під час ефективного використання навчальних обчислень. Незначна відмінність від закону є лише тоді, коли тренд подовжується ще на два порядки. Людям може здатися, що покращення втрат крос-ентропії може бути результатом моделювання хибних деталей навчального корпусу. Однак покращення втрати крос-ентропії призводить до постійного підвищення загальної продуктивності в широкому спектрі різноманітних завдань НЛП. 

Перш ніж оцінювати 8 різних моделей на основі широкого діапазону навчальних даних, набори даних групують у 8 різних категорій, які представляють подібні завдання. Ці категорії є

  1. Оцінювання традиційних завдань моделювання мови та завдань, які нагадують моделювання мови, як-от завдання Cloze або завдання завершення речень/абзаців. 
  2. Оцінювання завдань з відповідями на питання «закритої книги». 
  3. Оцінка здатності моделі перекладати між мовами (особливо одноразовим і нечисленним)
  4. Оцінка продуктивності моделі на Winograd Schema-подібних завданнях. 
  5. Оцінювання наборів даних, які включають здорові міркування або відповіді на запитання. 
  6. Оцінювання завдань на розуміння прочитаного. 
  7. Оцінка в наборі тестів SuperGLUE. 
  8. Вивчення NLI. 

Мовне моделювання, завершення та закриття завдань

У цьому розділі продуктивність моделі GPT-3 оцінюється в завданнях традиційного мовного моделювання, а також у завданнях, які вимагають передбачення одного цікавого слова, або завершення абзацу чи речення, або завершення фрагмента тексту. Розглянемо їх коротко докладно. 

Моделювання мови

Модель GPT-3 обчислює збентеження нульового удару на PTB або наборі даних Penn Tree Bank. Модель не містить завдань, пов’язаних із Вікіпедією, оскільки її вже включено до навчальних даних моделі, а контрольний показник в один мільярд слів також пропущено, оскільки він спричиняє значну кількість набору даних, що знаходяться в навчальних даних. Однак набір даних PTB вирішує ці проблеми, оскільки він може виникнути раніше за сучасний Інтернет. Найбільша модель в архітектурі моделі GPT-3 створює нову SOTA для набору даних PTB із заслуговуючим на увагу відривом у 15 пунктів і досягає подиву 20.50. 

LAMBADA

Набір даних LAMBADA використовується для перевірки моделювання моделі на довгострокових залежностях в абзацах або текстах. Це означає, що модель просять передбачити останнє слово речення після прочитання абзацу для контексту. Крім того, безперервне масштабування мовних моделей дає меншу віддачу від тесту. 

Модель GPT-3 досягає 76% точності на LAMBADA та має приріст понад 8% у порівнянні з попередніми кращими моделями. Крім того, модель LAMBADA демонструє гнучкість малократного навчання, оскільки вона вирішувала проблему у спосіб, який класично виникає з набором даних. Завершенням речення в LAMBADA зазвичай є останнє слово речення, але оскільки мовна модель не може цього знати, вона призначає ймовірність не лише правильному закінченню, але й іншим продовженням в абзаці. 

Крім того, коли приклади, подані в модель GPT-3, модифікуються певним чином, модель повертає точність понад 86%, що на 18% більше, ніж у попередніх моделях. Крім того, результати також показали, що продуктивність моделі в налаштуваннях кількох кадрів зростає пропорційно зі збільшенням розміру моделі. Хоча ця стратегія зменшує найменшу модель в архітектурі GPT-3 на 20%, вона підвищує точність первинної моделі GPT-3 із 175 мільярдами параметрів на 10%. 

Відповідь на питання закритої книги

Відповіді на запитання закритої книги – це спроба виміряти здатність моделі GPT-3 відповідати на запитання на основі широких фактичних знань. Оскільки такі запитання часто мають велику кількість можливих запитів, завдання зазвичай досягається за допомогою інформаційно-пошукової системи, яка дозволяє моделі знаходити релевантний текст у поєднанні з моделлю, яка вчиться генерувати відповідь на відповідь, враховуючи отриманий текст, і питання. 

На зображенні вище порівнюється результат для моделі GPT-3 із різними моделями та працює на різних наборах даних. За набором даних TriviaQA модель досягає показника точності 64.3% у налаштуваннях нульового знімка, тоді як вона досягає показника точності 68% та 71.2% у налаштуваннях одноразового та кількох знімків відповідно. 

Очевидно, що модель GPT-3 в режимі нульового пострілу перевершує налаштовану модель T5-11B більш ніж на 14%. 

Наведений вище малюнок показує, що продуктивність моделі GPT-3 плавно зростає зі збільшенням розміру моделі. Продуктивність свідчить про те, що мовні моделі продовжують вивчати набір даних у міру збільшення їхньої ємності. 

Заключні думки

Можна з упевненістю сказати, що GPT-3 був революційним етапом у галузі LLM, оскільки GPT-3 допоміг розсунути межі можливостей мовної моделі. Саме розробки та перешкоди, подолані GPT-3, проклали шлях до найдосконалішої та точної моделі великої мови на сьогоднішній день GPT-4. 

«За фахом інженер, душею — письменник». Кунал є технічним письменником, який глибоко любить і розуміє штучний інтелект і машинне навчання, відданий справі спрощення складних концепцій у цих сферах за допомогою своєї цікавої та інформативної документації.