Штучний інтелект

Zephyr-7B: Введення у пряму дистиляцію вирівнювання мовних моделей

Опубліковано 29 листопада 2023

Оновлено 22 травня 2026

Kunal Kejriwal

Спроможність та продуктивність менших, відкритих великомасштабних мовних моделей значно покращились за останні роки, і ми стали свідками прогресу від ранніх моделей GPT-2 до більш компактних, точних та ефективних рамок LLM, які використовують значно більшу кількість токенів, ніж «оптимальна кількість токенів», рекомендована законами масштабування Chinchilla. Крім того, розробники продемонстрували, що ці менші рамки LLM можуть бути додатково навчені за допомогою підходу dSFT або дистильованого наглядового тонкого налаштування, який використовує вихідeffective вчителя-моделі як наглядові дані для студентської моделі в спробі підвищити точність.

У цій статті ми будемо говорити про рамку Zephyr-7B, рамку бенчмарку чату для моделей з 7B параметрів, яка не вимагає анотацій людини. Основною метою рамки є дозволити розробникам створювати менші великомасштабні мовні моделі, які вирівнюються з намірами користувача ближче, ніж будь-коли раніше. Рамка Zephyr-7B не тільки вивчає застосування поточних підходів для більших рамок LLM, таких як dSFT, але також досліджує можливість використання інших підходів для навчання моделі чату з кращим вирівнюванням з намірами користувача. Ми будемо глибше вивчати рамку Zephyr, і досліджувати її архітектуру, роботу та результати. Тому почнімо.

Zephyr-7B: Введення у пряму дистиляцію вирівнювання мовних моделей

Як згадувалося раніше, мовні моделі швидко розвивались за останні роки, від ранніх рамок GPT-2 до поточних рамок GPT-4 і MiniGPT-5, які, хоча й витратні на токени, тепер більш точні та ефективні. Одним із основних моментів цих просунутих рамок LLM є те, що вони включають значно більшу кількість токенів, ніж кількість токенів, які раніше вважались оптимальними за законами масштабування Chinchilla. Крім того, розробники та дослідники, які працюють над рамками LLM, дізнались, що ці менші рамки LLM можуть бути додатково навчені за допомогою підходу dSFT або дистильованого наглядового тонкого налаштування, який використовує вихід вчителя-моделі як наглядові дані для студентської моделі в спробі підвищити точність. Підхід дистиляції довів себе як високо ефективний і корисний інструмент для максимізації потенціалу та можливостей відкритих моделей у широкому спектрі завдань, хоча він ще не може повторити продуктивність вчителя-моделі. Крім того, користувачі часто повідомляють, що ці моделі часто демонструють «вирівнювання намірів», тобто моделі не поводяться так, щоб вирівнюватися з вимогами кінцевих користувачів, що призводить до неправильних виходів, які не надають правильних виходів або відповідей на входи користувача чи запити.

Вирівнювання намірів завжди було великим викликом для розробників, і останні роботи зосереджені на створенні бенчмарків, таких як AlpacaEval і MT-Bench, розроблених для боротьби з невирівнюванням. Мотивація для створення рамки Zephyr полягає у використанні дистиляції для вирівнювання малих відкритих рамок LLM, де основним кроком є використання АІ-зворотного зв’язку для отримання даних про переваги від ансамблю вчителя-моделі, а потім застосування дистильованої оптимізації переваг безпосередньо як основної навчальної цілі, підходу, який називається dDPO або дистильованою прямою оптимізацією переваг. Основним моментом підходу dDPO є те, що, на відміну від його попередників, таких як PPO або проксимальна оптимізація переваг, він не вимагає зразків людини чи анотацій, а також скорочує час навчання мовної моделі. Крім того, він також дозволяє розробникам максимізувати винагороди остаточного зразка, звертаючи увагу на послідовність кроків дистиляції від початку до кінця, тобто протягом усієї її тривалості.

Розробники створили рамку Zephyr-7B для перевірки цього підходу, і в деяких аспектах вона є вирівненою версією рамки Mistral-7B. Рамка спочатку використовує підхід dSFT або дистильоване наглядове тонке налаштування на основі набору даних UltraChat, а потім застосовує підхід dDPO або дистильовану дифузійну оптимізацію політики на основі даних зворотного зв’язку. Експерименти показують, що рамка Zephyr-7B з 7 мільярдами параметрів демонструє результати, порівнянні з результатами моделей чату, вирівнених з людиною, з понад 70 мільярдами параметрів. Крім того, експерименти також показують, що результати можна покращити як у бенчмарках, які беруть до уваги можливості чату, так і в стандартних академічних бенчмарках, і використання навчання переваг є критично важливим для досягнення бажаних результатів.

Вищезазначена фігура демонструє продуктивність різних мовних моделей на бенчмарку MT-bench. Рамка Zephyr-7B, навчена за допомогою підходу dDPO, порівнюється з пропріетарними та відкритими великомасштабними мовними моделями, такими як GPT-3.5 turbo, Llama-2-70B та іншими, які були навчені за допомогою додаткового підкріплення навчання та включали велику кількість зворотного зв’язку людини. Як можна побачити, рамка Zephyr-7B демонструє порівнянні результати з більшість з них та перевершує кілька рамок у різних областях.

Zephyr-7B: Метод, робота та архітектура

Основною метою рамки Zephyr-7B є допомога відкритій великомасштабній мовній моделі вирівнятися якомога ближче до намірів користувача, і протягом усієї своєї роботи рамка Zephyr-7B припускає наявність великої вчителя-моделі, яка запитується за допомогою генерації запиту. Рамка Zephyr-7B слідує підходу, подібному до того, який використовується у рамці InstructGPT, і спрямована на генерацію ефективної та точної студентської моделі.

Наступна фігура коротко демонструє три основних кроки, залучені у роботі рамки Zephyr-7B.

dSFT для великомасштабної конструкції набору даних за допомогою самонавчального стилю.
Збір АІ-зворотного зв’язку за допомогою ансамблю завершених моделей чату, за яким слідує бінарназація переваг та оцінка GPT-4.
dPO моделі dSFT за допомогою даних зворотного зв’язку.

dSFT або дистильоване наглядове тонке налаштування

Рамка починається з сирої великомасштабної мовної моделі, яка спочатку потребує навчання для відповіді на запити користувача. Традиційно, навчання цих рамок LLM для відповіді на запити користувача здійснюється за допомогою наглядового тонкого налаштування на наборі даних, що складається з високоякісних інструкцій та відповідних реакцій. Оскільки рамка Zephyr-7B має доступ до вчителя-моделі, рамка може генерувати інструкції та реакції та навчати модель безпосередньо на цих інструкціях та реакціях, і цей підхід називається dSFT або дистильованим наглядовим тонким налаштуванням. Наступна фігура демонструє дистиляцію, виконану наглядовим тонким налаштуванням, де x представляє набір початкових запиту, створених з основною метою представлення різноманітного набору тематичних доменів, y представляє зразкову реакцію, яка уточнюється за допомогою нового зразкового запиту, представленого x1, а C представляє кінцеву точку у кінцевому наборі даних.

АІ-зворотний зв’язок через переваги

Зворотний зв’язок людини використовується для призначення великомасштабних мовних моделей, оскільки вони можуть надати необхідні додаткові сигнали, і ці зворотні зв’язки традиційно надаються через переваги якості реакцій, згенерованих рамками LLM. Однак рамка Zephyr використовує АІ-зворотний зв’язок від вчителя-моделі на виходах інших моделей замість зворотного зв’язку людини для цілей дистиляції. Підхід, який використовується рамкою Zephyr, під впливом підходу, використовуваного рамкою UltraFeedback, який використовує вчителя-модель для надання переваг виходам моделі.

Аналогічно підходу наглядового тонкого налаштування, він починається з набору запиту, де x представляє кожен окремий запит, який потім подається у колекцію з чотирьох моделей, таких як Llama, Falcon, Claude та інші, кожна з яких генерує свою реакцію. Ці реакції потім подаються як вхід у вчителя-модель, таку як GPT-3 або GPT-4, і модель видає оцінку для входу реакції. Після збору виходів оцінок модель зберігає реакцію з найвищою оцінкою.

dDPO або дистильована пряма оптимізація переваг

dDPO є останнім кроком рамки Zephyr, і її основною метою є уточнення моделі dSFT шляхом максимізації ймовірності ранжування переваженої реакції у моделі переваг, яка визначається функцією винагороди шляхом використання студентської мовної моделі. Попередній крок, який включав використання АІ-зворотного зв’язку, зосереджувався в основному на використанні методів підкріплення навчання, таких як PPO або проксимальна оптимізація переваг, для максимальної оптимізації щодо винагороди, згенерованої. На цьому етапі винагорода спочатку навчається, а потім вибірково вибирається з поточної політики для розрахунку оновлень, і тим самим максимізується оптимізація. DPO або пряма оптимізація переваг слідує подібному підходу для оптимізації моделі переваг безпосередньо за допомогою статичних даних. Ціль після підключення функції винагороди до моделі переваг може бути записана як

Zephyr-7B: Експерименти, бенчмарки та результати

Рамка Zephyr проводить свої експерименти з тонкого налаштування на основі поточної рамки Mistral-7B, яка демонструє продуктивність, порівнянну з великомасштабними мовними моделями у широкому спектрі завдань обробки природної мови.

Набори даних

Рамка Zephyr використовує два діалогових набори даних, які були дистильовані з суміші пропріетарних та відкритих моделей, які раніше довели себе ефективними у створенні ефективних моделей чату.

UltraChat

UltraChat є саморефайнінг-набором даних, який складається з майже 1,5 мільйона багаторазових діалогів, поширених на 30 тем та 20 текстових матеріалів, згенерованих рамкою GPT-3.5-Turbo. Для боротьби з проблемою неправильної великої літери у наборі даних UltraChat рамка застосовує підхід truecasing-евристики для видалення граматичних помилок.

UltraFeedback

UltraFeedback є набором даних запиту з понад 64 тисячами запитами, кожен з яких має чотири окремі реакції LLM. Рамка Zephyr використовує найвищу середню оцінку, отриману з набору даних UltraFeedback, для побудови бінарних переваг, і одна з трьох інших реакцій LLM відхиляється як випадкова.

Оцінка

Для оцінки продуктивності рамки Zephyr розробники обрали два бенчмарки чату, один одноразовий і один багаторазовий, у спробі оцінити здатність моделі слідувати інструкціям користувача та реагувати відповідно.

MT-Bench

Бенчмарк MT-Bench складається з 160 запитів, поширених на 8 унікальних областей знань, і під бенчмарком MT-Bench модель повинна відповісти на початковий запит та надати реакцію на наступний запит.

AlpacaEval

AlpacaEval є одноразовим бенчмарком, під яким модель генерує реакції користувача на понад 800 запитів, поширених на різні теми, з основним акцентом на корисності.

Крім цих двох основних бенчмарків, рамка Zephyr-7B також оцінюється на відкритому лідерборді LLM для завдань багатокласової класифікації, ARC, HellaSwag, MMLU та інших. Крім того, незалежно від того, на якому бенчмарку оцінюється рамка Zephyr-7B, вона порівнюється з рядом пропріетарних та відкритих моделей, з процедурами вирівнювання як єдиним диференціюючим фактором.

Результати

Давайте тепер розглянемо, як рамка Zephyr-7B працює та порівнюється з поточними мовними моделями.

Реалізація підходу dDPO підвищує можливості чату

Наступна таблиця порівнює продуктивність рамки Zephyr-7B з поточними мовними моделями на бенчмарках AlpacaEval та MT-Bench.

Як можна побачити, коли порівнюється з відкритими моделями з 7B параметрами, рамка Zephyr-7B не тільки значно перевершує моделі dSFT на обох бенчмарках, але також встановлює нові стандарти стану справи. Крім того, рамка Zephyr-7B також перевершує рамку XWIN-LM-7B, яка є однією з рідкісних моделей, навчених на підході dPPO або дистильованому PPO. Крім того, продуктивність рамки Zephyr-7B порівнянна з результатами, отриманими більшістю великомасштабних мовних моделей, таких як Llama2-Chat з понад 70B параметрами.

dDPO підвищує продуктивність академічних завдань

Наступна фігура порівнює продуктивність рамки Zephyr-7B з широким спектром відкритих та пропріетарних рамок LLM.

Як можна побачити, рамка Zephyr-7B значно перевершує рамки LLM з 7B параметрами, і розрив між її продуктивністю та продуктивністю найкращих моделей dSFT також помітний. Як тільки кількість параметрів збільшується, рамка Zephyr-7B дещо відстає, хоча вона дорівнює продуктивності рамок з 40 мільярдами параметрів.

Оптимізація переваг

У наступній фігурі ми оцінюємо, як різні кроки, виконані у процесі вирівнювання, впливають на продуктивність. Як можна побачити, підхід dDPO, коли він поєднується з dSFT, значно підвищує продуктивність на обох наборах даних MT-Bench та AlpacaEval.

Нарешті, у наступній фігурі ми бачимо точність тестування та навчання під час реалізації DPO. Як можна побачити, підхід DPO не впливає на продуктивність моделі на завданнях нижнього рівня.

Висновок

У цій статті ми говорили про рамку Zephyr-7B на основі поточної рамки Mistral-7B, яка спрямована на вирішення поточної проблеми дистиляції вирівнювання з великомасштабної мовної моделі у меншу попередньо навчену рамку. Основною метою рамки є дозволити розробникам створювати менші великомасштабні мовні моделі, які вирівнюються з намірами користувача ближче, ніж будь-коли раніше. Рамка Zephyr-7B не тільки вивчає застосування поточних підходів для більших рамок LLM, таких як dSFT, але також досліджує можливість використання інших підходів для навчання моделі чату з кращим вирівнюванням з намірами користувача.

Однак, незважаючи на перспективні результати, рамка Zephyr-7B не є досконалою, і ще залишається робота. Одним з очевидних обмежень є використання рамки GPT-4 для оцінки бенчмарків MT-Bench та AlpacaEval, яке часто було упередженим щодо моделей, які вона дистилює сама. Однак рамка Zephyr-7B сподівається пролити шлях для дослідження можливостей менших відкритих моделей, які здатні вирівнюватися з намірами користувача та взаємодією.

Kunal Kejriwal

Інженер за професією, письменник серцем. Kunal є технічним письменником з глибокою любов'ю та розумінням AI і ML, присвяченим спрощенню складних концепцій у цих галузях завдяки його цікавим та інформативним документам.

Unite.AI

Zephyr-7B: Введення у пряму дистиляцію вирівнювання мовних моделей

Zephyr-7B: Введення у пряму дистиляцію вирівнювання мовних моделей

Zephyr-7B: Метод, робота та архітектура

dSFT або дистильоване наглядове тонке налаштування

АІ-зворотний зв’язок через переваги

dDPO або дистильована пряма оптимізація переваг

Zephyr-7B: Експерименти, бенчмарки та результати

Набори даних

UltraChat

UltraFeedback

Оцінка

MT-Bench

AlpacaEval

Результати

Реалізація підходу dDPO підвищує можливості чату

dDPO підвищує продуктивність академічних завдань

Оптимізація переваг

Висновок

Дізнайтеся більше