Штучний Інтелект
Zephyr-7B : гіпероптимізований LLM від HuggingFace, створений на базі Mistral 7B

Вступ
Еволюція відкритих моделей великих мов (LLM) суттєво вплинула на спільноту дослідників штучного інтелекту, особливо на розробку чат-ботів та подібних програм. Після появи таких моделей, як LLaMA, спостерігався сплеск досліджень щодо ефективного точного налаштування, розширеної обробки запитів, генерації пошуку з доповненою генерацією (RAG) та квантування.
Модель LLaMA, наприклад, ознаменувала нову еру в тонкому налаштуванні та швидкому контекстуалізації, проклавши шлях для наступних моделей, таких як MPT від MosaicML, RedPajama-INCITE від Together AI, Falcon від TII та Llama 2 від Meta. Кожна з цих моделей надає унікальні можливості. , підвищуючи загальну функціональність і обсяг LLMs.
Mistral AI, стартап із Парижа, заснований колишніми співробітниками Google DeepMind і Meta, зробив собі ім’я своєю першою пропозицією: Mistral 7B.
Перевага Mistral 7B полягає в його ефективності, забезпечуючи аналогічні або покращені можливості порівняно з аналогами, такими як Llama 2, але з меншими обчислювальними вимогами.
Спеціально налаштований для навчальних завдань, Mistral 7B Instruct блищить на таких платформах, як Hugging Face, де він перевершує інші моделі такого ж розміру та тісно конкурує з тими, що мають майже удвічі більші параметри.
Спираючись на це, представлено Hugging Face Zephyr 7B Alpha, демонструючи, що добре налаштований Mistral 7B справді може перевершити можливості значно більших моделей чату, а в деяких завданнях навіть конкурувати з GPT-4. «Альфа» була лише початком, як Зефір 7Б Незабаром послідувала бета-версія.
У цій статті буде досліджено, як Zephyr 7B використовує можливості більших моделей для вдосконалення своєї здатності реагувати та узгоджуватися з людськими інструкціями, процес, що став можливим завдяки техніці дистиляції знань. Цей метод передбачає навчання менших моделей складним шаблонам, засвоєним більшими, зменшуючи вимоги до навчання без шкоди для можливостей моделювання мови. Ми заглибимося в специфіку підходу Hugging Face до дистиляції знань.
Перегонка знань
Ключова інновація в розробці таких моделей, як Зефір-7Б це дистильоване контрольоване точне налаштування (dSFT). Цей метод передбачає використання виходу більшої, потужнішої моделі «вчителя» для навчання меншої моделі «учня», що підвищує її точність. Хоча дистиляція покращує відкриті моделі для різних завдань, розрив у продуктивності порівняно з моделями вчителя все ще існує.
Дистиляція знань — це метод машинного навчання, де компактна модель, яка називається «студент,» вчать відтворювати ефективність більшого, складнішого «учитель” модель. Ця техніка дозволяє учневі виконувати завдання, які раніше були поза його можливостями, передаючи складні схеми, вивчені вчителем.
Модель учня тренується на ймовірностях вихідних даних або характеристиках, створених моделлю вчителя, зосереджуючись на відповідності цих вихідних даних, а не лише на остаточних прогнозах. Це дозволяє учневі дізнатися про нюанси процесу прийняття рішень викладачем, що часто призводить до кращої продуктивності порівняно з навчанням лише з основними правдивими даними.
Історично дистиляція знань використовувалася в таких моделях, як оригінальні мережі дистиляції Хінтона, а нещодавно в NLP з такими моделями, як DistilBERT, яка перетворила модель BERT на меншу, швидшу версію, що зберігає більшість можливостей розуміння мови оригіналу. Іншим прикладом є TinyBERT, яка йде далі в оптимізації розміру та швидкості для мобільних або периферійних пристроїв.
У випадку Zephyr-7B дистиляція знань використовується для наповнення меншої моделі параметрів 7B можливостями її більших аналогів. Завдяки цьому Zephyr-7B досягає балансу між продуктивністю та ефективністю, що робить його придатним для середовищ, де обчислювальні ресурси обмежені, без шкоди для якості взаємодії та розуміння.
Розробляючи Zephyr-7B, дослідники вирішували проблему вирівнювання невеликого відкритого LLM повністю за допомогою дистиляції. Вони запровадили підхід під назвою дистильована пряма оптимізація переваг (dDPO), який використовує зворотній зв’язок AI від сукупності моделей вчителів як дані про переваги. Цей метод, не потребуючи анотації людини, значно скорочує час і ресурси, необхідні для навчання моделі.
Будівництво ZEPHYR-7B
Щоб підтвердити dDPO, дослідники створили ZEPHYR-7B, вирівняну версію Модель Містраль-7Б. Процес включав три кроки:
- dSFT з використанням набору даних UltraChat:Distilled Supervised Fine-Tuning (dSFT) — це вдосконалений метод навчання великих мовних моделей (LLM) шляхом використання результатів більших, більш здібних моделей «вчителя». Він починається з необробленого LLM, який навчений відповідати на підказки користувача. На відміну від традиційної контрольованої тонкої настройки (SFT), яка використовує фіксований набір даних, dSFT використовує динамічний підхід, коли модель сама генерує інструкції та відповіді. Цей метод, відомий як самонавчання, передбачає використання моделі вчителя як для відповідей, так і для уточнення інструкцій на основі відповідей. Процес починається з набору початкових підказок (x₀₁, x₀₂, …, x₀_J), що представляють різноманітні теми. Кожна підказка уточнюється ітеративно: для заданої підказки x₀ модель викладача генерує відповідь y₀, а потім на основі x₀ та y₀ створюється вибірка нової інструкції x₀. Остаточний набір даних C = {(x₁, y₁), …, (x_J, y_J)} використовується для точного налаштування моделі.
- Включення даних зворотного зв’язку AI від UltraFeedbackЦі дані були вирішальними для уточнення відповідей моделі. На цьому кроці модель генерує відповіді на різні підказки (наприклад, опис приготування шоколадних брауні), які потім ранжуються за допомогою більш просунутої моделі, такої як GPT-4. Відповідь з найвищим балом (yw) та випадково вибрана відповідь з нижчим балом (yl) формують набір даних зворотного зв'язку D.
- Застосування дДПО: Останній етап, оптимізація дистильованої прямої переваги (dDPO), передбачає вдосконалення моделі dSFT шляхом максимізації ймовірності вищого ранжирування бажаних відповідей. Це досягається за допомогою функції винагороди rθ(x, y) у моделі переваг, яка базується на оптимальній політиці LLM π* і вихідній політиці πdSFT. Мета оптимізації формулюється як πθ = max π E (x, yw, yl) ∼ D log σ (β log π(yw|x)/πdSFT(yw|x) − β log π(yl|x)/πdSFT( yl|x)), що спрощує процес навчання, починаючи з версії моделі dSFT і повторюючи кожну трійку AIF.
Примітно, що Zephyr-7B досягає продуктивності, порівнянної з набагато більшими моделями з параметрами 70B, узгодженими з людським відгуком. Він перевершує як академічні тести, так і розмовні можливості, підкреслюючи ефективність вивчення переваг у розробці моделей. Для подальшого вивчення моделі, код та інструкції доступні за адресою Репозиторій GitHub від Hugging Face.
Вирішення проблеми узгодження намірів
Помітним занепокоєнням LLM-ів є їх узгодження з людськими намірами. Попередні моделі часто не давали відповідей, які б відповідали вподобанням користувача, що призводило до неточних або нерелевантних відповідей. Однак нещодавні тести, такі як MT-Bench і AlpacaEval, надали інструменти для кількісної оцінки та покращення цього аспекту, підкреслюючи кращу продуктивність власних моделей, навчених за допомогою зворотного зв’язку людини, порівняно з моделями, навченими виключно за допомогою дистиляції.
Методи оцінки
Оцінка Zephyr 7B передбачала суворе тестування в тестах, які оцінювали здатність моделі розмовляти в одно- та багаторазових контекстах:
- МТ-Лава: цей багатоповоротний тест потребує, щоб модель відповідала на 160 питань, що охоплюють вісім областей. Кожна відповідь оцінюється за GPT-4, при цьому кінцевий бал моделі відображає середнє значення за два раунди запитань.
- АльпакаЕваль: у цьому одноповоротному тесті моделі представлено 805 запитань на різні теми. Основна увага тут приділяється корисності моделі, а GPT-4 оцінює відповіді, щоб визначити порівняльний коефіцієнт перемоги.
Крім того, Zephyr 7B було протестовано на Open LLM Leaderboard, який, хоча й не є прямою оцінкою розмовних навичок, дає уявлення про міркування та правдивість моделі після точного налаштування.
Zephyr 7B порівнювали з різними відкритими та пропрієтарними моделями, у тому числі з різними розмірами та методами вирівнювання. Він встановив нові тести для моделей 7B на MT-Bench і AlpacaEval і продемонстрував конкурентоспроможність порівняно з більшими моделями, підтвердивши ефективність прямої оптимізації переваг (dDPO) у навчанні.
Фази навчання SFT і DPO були ретельно налаштовані, охоплюючи кілька епох і точно налаштовуючи темпи навчання та розміри пакетів для оптимальної продуктивності. Остаточна модель Zephyr вийшла не тільки стійкою до переобладнання, але й покращеною у виконанні практичних завдань і академічних тестів.
Набори даних і результати
Використані набори даних
Ефективність і результати
На наведеній нижче діаграмі показано продуктивність Zephyr 7B у різних категоріях завдань порівняно з іншими моделями, такими як GPT-3.5-turbo, Claude 1, GPT-4 і Llama-2-70b-chat. Категорії можуть включати письмо, гуманітарні науки, рольові ігри, міркування, STEM, видобуток, кодування та математику.
З діаграми ми можемо зробити висновок, у яких областях Zephyr 7B досягає успіху, а які потребують подальшого покращення. Наприклад, якщо лінія Zephyr простягається далі на осі письма порівняно з іншими, це свідчить про те, що Zephyr особливо сильний у створенні письмового контенту. І навпаки, якщо лінія ближче до центру на осі математики, це може свідчити про відносну слабкість у вирішенні математичних задач.
Радарна діаграма допомагає визначити сильні та слабкі сторони Zephyr 7B, надаючи візуальне уявлення про те, де він стоїть проти більших моделей, таких як GPT-4, і спеціалізованих моделей, таких як Llama-2-70b-chat.
Порівняння різних мовних моделей на двох тестах: MT-Bench і AlpacaEval. Моделі оцінюються на основі їх розміру, методу вирівнювання (наприклад, dSFT для дистильованої контрольованої тонкої настройки або dDPO для дистильованої оптимізації прямих переваг) і показників продуктивності. Zephyr виділяється високими оцінками в обох тестах, що вказує на його ефективність у створенні узгоджених відповідей.
Висновок
На завершення, розробка Zephyr-7B демонструє, що вирівнювання та дистиляція розмовних можливостей з великої мовної моделі (LLM) на меншу модель може бути досягнуто без опори на методи на основі вибірки. Застосовуючи оптимізацію прямих переваг (DPO) із зворотним зв’язком штучного інтелекту, Zephyr-7B використовує міцну основу Mistral-7B, щоб встановити новий стандарт для моделей чату з параметрами 7B, демонструючи здатність менших моделей із відкритим вихідним кодом розуміти користувача та реагувати на нього. намір ефективно.
Однак це дослідження не позбавлене обмежень. Покладення на GPT-4 як оцінювача для контрольних показників створює упередженість до моделей, отриманих з нього, потенційно віддаючи перевагу точним відповідям. Крім того, масштабованість цього методу для більших моделей, таких як LLAMA2-70B, і його вплив на підвищення продуктивності залишаються областю для подальших досліджень. Ці обмеження підкреслюють необхідність постійних інновацій і розробки неупереджених методів оцінки в спільноті ШІ.
Дивлячись за рамки дослідження, очевидно, що потенціал менших моделей для роботи на рівні більших аналогів може демократизувати ШІ, забезпечуючи більш доступне та ефективне використання в різних застосуваннях. Успіх Zephyr-7B спонукає до подальшого дослідження моделей з відкритим кодом, які можуть пришвидшити розвиток ШІ, сприяючи спільним дослідженням та розробкам.