Штучний інтелект
Zephyr-7B : HuggingFace’s Hyper-Optimized LLM Built on Top of Mistral 7B

Вступ
Еволюція відкритих великих мовних моделей (LLM) суттєво вплинула на спільноту досліджень штучного інтелекту, особливо у розробці чат-ботів та подібних застосунків. Після випуску моделей типу LLaMA спостерігається зростання досліджень щодо ефективного тонкого налаштування, розширення обробки промптів, генерації за допомогою пошукових даних (RAG) та квантування.
Модель LLaMA, наприклад, відкрила нову еру тонкого налаштування та контекстуалізації промптів, проклавши шлях для подальших моделей, таких як MPT від MosaicML, RedPajama-INCITE від Together AI, Falcon від TII та Llama 2 від Meta. Кожна з цих моделей внесла унікальні можливості, покращуючи загальну функціональність та сферу застосування LLM.
Mistral AI, стартап з Парижа, заснований колишніми працівниками Google DeepMind та Meta, зробив собі ім’я завдяки першій пропозиції: Mistral 7B.
Перевага Mistral 7B полягає в його ефективності, забезпечуючи подібні або покращені можливості порівняно з аналогами, такими як Llama 2, але з меншими обчислювальними вимогами.
Відповідно до налаштування для інструктивних завдань, Mistral 7B Instruct вирізняється на платформах типу Hugging Face, де він перевершує інші моделі такого самого розміру та конкурує з моделями, що мають майже вдвічі більше параметрів.
Розбудовуючи на цьому, Hugging Face представила Zephyr 7B Alpha, демонструючи, що тонко налаштована модель Mistral 7B може перевершити можливості значно більших чат-моделей і, в деяких завданнях, навіть конкурувати з GPT-4. “Alpha” був лише початком, оскільки за ним слідувала Zephyr 7B Beta.
Ця стаття досліджуватиме, як Zephyr 7B використовує потужність більших моделей для вдосконалення своєї здатності реагувати та відповідати humano-інструкціям, процес, який став можливим завдяки техніці знань-дистиляції. Цей метод涉лює навчання менших моделей на складних узорах, вивчених більшішими моделями, зменшуючи вимоги до навчання без жертвування можливостями мовної моделі. Ми заглибимося в подробиці підходу Hugging Face до знань-дистиляції.
Знання-дистиляція
Ключова інновація у розробці моделей типу Zephyr-7B полягає в дистильованому наглядовому тонкому налаштуванні (dSFT). Цей метод涉лює використання виводу з більшої, більш здатної “вчительської” моделі для навчання меншої “учневої” моделі, покращуючи її точність. Хоча дистиляція покращує відкриті моделі в різних завданнях, розрив у продуктивності порівняно з вчительськими моделями все ще існує.
Знання-дистиляція – це метод у машинному навчанні, де компактна модель, відома як “учень”, навчається реплікувати продуктивність більшої, складнішої “вчительської” моделі. Цей метод дозволяє учневі виконувати завдання, які раніше були поза його можливостями, передавши складні узори, вивчені вчительською моделлю.
Учнева модель навчається на вивідних імовірностях або ознаках, згенерованих вчительською моделлю, зосереджуючись на відповідності цим виводам, а не лише остаточним передбаченням. Це дозволяє учневі вивчити нюансировані процеси прийняття рішень вчительської моделі, часто результатом чого є покращення продуктивності порівняно з навчанням лише з фактичними даними.
Історично знання-дистиляція використовувалася в моделях типу мереж дистиляції Hinton, а також у NLP з моделями, такими як DistilBERT, який дистилював модель BERT у меншу, швидшу версію, яка зберігає більшість мовних можливостей оригіналу. Іншим прикладом є TinyBERT, який йде далі в оптимізації розміру та швидкості для мобільних або периферійних пристроїв.
У випадку Zephyr-7B знання-дистиляція використовується для наділення меншої 7B-параметрової моделі можливостями більших аналогів. Завдяки цьому Zephyr-7B досягає балансу між продуктивністю та ефективністю, роблячи її придатною для середовищ, де обчислювальні ресурси обмежені, не жертвуючи якістю взаємодії та розуміння.
При розробці Zephyr-7B дослідники подолали виклик зіставлення меншої відкритої LLM повністю через дистиляцію. Вони представили підхід, відомий як дистильована пряма оптимізація переваг (dDPO), який використовує зворотний зв’язок штучного інтелекту з ансамблю вчительських моделей як дані переваг. Цей метод, який не потребує людської анотації, суттєво зменшує час та ресурси, необхідні для навчання моделі.
Конструкція ZEPHYR-7B
Для перевірки dDPO дослідники побудували ZEPHYR-7B, зіставлену версію моделі Mistral-7B. Процес включав три етапи:
- dSFT за допомогою набору даних UltraChat: Дистильоване наглядове тонке налаштування (dSFT) – це просунутий метод навчання великих мовних моделей (LLM) шляхом використання виводу з більших, більш здатних “вчительських” моделей. Воно починається з сирої LLM, яку навчають реагувати на промпти користувача. На відміну від традиційного наглядового тонкого налаштування (SFT), яке використовує фіксований набір даних, dSFT використовує динамічний підхід, у якому модель сама генерує інструкції та відповіді. Цей метод, відомий як самоінструкція, включає використання вчительської моделі для відповіді та уточнення інструкцій на основі відповідей. Процес починається з набору початкових промптів (x₀₁, x₀₂, …, x₀_J), які представляють різні теми. Кожен промпт уточнюється ітеративно: для заданого промпту x₀ генерується відповідь y₀ вчительською моделлю, а потім вибірково нова інструкція x₁ на основі x₀ та y₀. Остаточний набір даних C = {(x₁, y₁), …, (x_J, y_J)} використовується для тонкого налаштування моделі.
- Включення даних зворотного зв’язку штучного інтелекту з UltraFeedback: Ці дані були важливими для уточнення відповідей моделі. На цьому етапі модель генерує відповіді на різні промпти (наприклад, описування того, як зробити шоколадні брауні), які потім оцінюються більш просунутою моделлю, такою як GPT-4. Відповідь з найвищим балом (yw) та випадково вибрана нижча за балом відповідь (yl) утворюють набір даних зворотного зв’язку D.
- Застосування dDPO: Останній етап, дистильована пряма оптимізація переваг (dDPO), включає уточнення моделі dSFT шляхом максимізації імовірності більш високого рейтингу переваг. Це досягається шляхом використання функції винагороди rθ(x, y) у моделі переваг, яка базується на оптимальній політиці LLM π* та початковій політиці πdSFT. Ціль оптимізації формулюється як πθ = max π E (x, yw, yl) ∼ D log σ (β log π(yw|x)/πdSFT(yw|x) − β log π(yl|x)/πdSFT(yl|x)), що спрощує процес навчання, починаючи з версії dSFT моделі та ітеративно проходячи через кожний тріплет зворотного зв’язку штучного інтелекту.
Вражаюче, але Zephyr-7B досягає продуктивності, порівнянної з моделями значно більших розмірів, зіставленими з людським зворотним зв’язком, і в деяких завданнях навіть конкурує з GPT-4. Для подальшого дослідження моделі, коду та інструкцій доступні на GitHub-репозиторії Hugging Face.
Вирішення виклику зіставлення намірів
Відзначним викликом для LLM було їхнє зіставлення з людським наміром. Попередні моделі часто не могли генерувати відповіді, які відповідали перевагам користувача, що призводило до неточних або неважливих відповідей. Однак останні бенчмарки, такі як MT-Bench та AlpacaEval, надали інструменти для кількісної оцінки та покращення цього аспекту, підкреслюючи вищу продуктивність власницьких моделей, тренованих з людським зворотним зв’язком, над тими, які тренувалися лише через дистиляцію.
Методи оцінки
Оцінка Zephyr 7B включала ретельне тестування на бенчмарках, які оцінюють здатність моделі до розмовної взаємодії в одно- та багаторозмовному контексті:
- MT-Bench: Цей багаторозмовний бенчмарк вимагає від моделі відповісти на 160 питань у восьми доменах. Кожна відповідь оцінюється GPT-4, а остаточний бал моделі відображає середнє значення за два раунди питань.
- AlpacaEval: У цьому однорозмовному бенчмарку модель представляється 805 питаннями з різних предметів. Основний акцент тут робиться на корисності моделі, а GPT-4 оцінює відповіді для визначення порівняльного рівня перемоги.
Крім того, Zephyr 7B була протестована на Open LLM Leaderboard, який, хоча й не є прямою оцінкою розмовних навичок, надає уявлення про здатність моделі до раціонального мислення та істини після тонкого налаштування.
Zephyr 7B була порівняна з різними відкритими та власницькими моделями, включаючи ті, які мають різні розміри та методи зіставлення. Вона встановила нові бенчмарки для 7B-моделей на MT-Bench та AlpacaEval і показала конкурентоспроможну продуктивність проти більших моделей, підтверджуючи ефективність прямої оптимізації переваг (dDPO) у тренуванні.
Фази SFT та DPO були ретельно сконфігуровані, охоплюючи кілька епох та тонке налаштування темпів навчання та розмірів пакетів для оптимальної продуктивності. Остаточна модель Zephyr не лише виявилася стійкою до переобучення, але й покращеною у справі практичних завдань та академічних бенчмарків.
Набори даних та результати
Використані набори даних
При розробці Zephyr-7B були використані два ключових набори даних для тренування та уточнення моделі, кожний з яких охоплював різні аспекти генерації діалогу:
Набір даних UltraChat
- Джерело: Розроблений з діалогів, згенерованих GPT-3.5-TURBO.
- Зміст: Містить 1,47 мільйона багаторозмовних діалогів у 30 темах та 20 типах текстових матеріалів.
- Уточнення: Набір даних пройшов через евристичне справжнє іменування для виправлення граматичних проблем, а також були застосовані фільтри для підвищення корисності відповідей та усунення некорисних фраз-преамбул.
Набір даних UltraFeedback
- Джерело: Складається з промптів, оцінених GPT-4, який оцінював відповіді за інструкціями, чесністю та корисністю.
- Зміст: Містить 64 000 промптів з чотирма відповідями кожний, оціненими GPT-4.
- Бінарні переваги: Генеруються шляхом вибору відповіді з найвищим середнім балом як “обраної” та випадкової з решти як “відхиленої” для підвищення різноманітності та виклику процесу прямої оптимізації переваг (DPO).
Обидва набори даних є важливими для тренування Zephyr-7B на генерацію діалогів, подібних до людських, які відповідають інструкціям, чесності та корисності. Ці набори даних були розміщені на Hugging Face Hub, до якого можна звернутися тут.
Продуктивність та результати
Нижче наведена діаграма показує продуктивність Zephyr 7B у різних категоріях завдань проти інших моделей, таких як GPT-3.5-turbo, Claude 1, GPT-4 та Llama-2-70b-chat. Категорії можуть включати Написання, Гуманітарні науки, Рольові ігри, Розуміння, STEM, Вилучення, Кодування та Математика.
З діаграми можна зробити висновок, у яких областях Zephyr 7B виділяється та які області можуть потребувати подальшого покращення. Наприклад, якщо лінія Zephyr простягнута далі на осі Написання порівняно з іншими, це вказує на те, що Zephyr особливо сильна у генерації написаних контентів. Навпаки, якщо лінія ближче до центру на осі Математики, це може вказувати на відносну слабкість у вирішенні математичних проблем.
Радарна діаграма допомагає визначити сильні та слабкі сторони Zephyr 7B, надає візуальне представлення того, де вона стоїть проти більших моделей, таких як GPT-4, та спеціалізованих моделей, таких як Llama-2-70b-chat.
Порівняння різних мовних моделей на двох бенчмарках: MT-Bench та AlpacaEval. Моделі оцінюються за розміром, методом зіставлення (таким як dSFT для дистильованого наглядового тонкого налаштування або dDPO для дистильованої прямої оптимізації переваг) та балами продуктивності. Zephyr виділяється високими балами в обох бенчмарках, вказуючи на її ефективність у генерації зіставлених відповідей.
Висновок
У висновку, розробка Zephyr-7B демонструє, що зіставлення та дистиляція розмовних можливостей з великої мовної моделі (LLM) на меншу модель може бути досягнута без використання методів, заснованих на вибірці. Використовуючи пряму оптимізацію переваг (DPO) з зворотним зв’язком штучного інтелекту, Zephyr-7B використовує сильну основу Mistral-7B для встановлення нового бенчмарку для 7B-параметрових чат-моделей, демонструючи здатність менших, відкритих моделей зрозуміти та відповісти на наміри користувача ефективно.
Однак, це дослідження не позбавлене обмежень. Залежність від GPT-4 як оцінювача для бенчмарків вводить упередженість щодо моделей, які дистилюються з нього, потенційно схиляючи баланс на користь точних відповідей. Крім того, масштабованість цього методу для більших моделей, таких як LLAMA2-70B, та його вплив на продуктивність залишаються сферами для подальших досліджень. Ці обмеження підкреслюють необхідність постійного інноваційного розвитку та створення необмежених методів оцінки в спільноті штучного інтелекту.
Оглядаючи дослідження, очевидно, що потенціал менших моделей виконувати завдання на рівні більших аналогів може демократизувати штучний інтелект, дозволяючи більш доступне та ефективне використання в різних застосунках. Успіх Zephyr-7B заохочує подальше дослідження відкритих моделей, яке може прискорити розвиток штучного інтелекту, сприяючи спільним дослідженням та розробкам.














