Штучний Інтелект

Reflection 70B: LLM із самокоригуючим когнітивним потенціалом і провідною продуктивністю

опублікований Вересень 11, 2024

Ааюш Міттал Міттал

Reflection 70B, великі мовні моделі, самокорекція AI, Reflection-Tuning, AI з відкритим кодом, HyperWrite

Відображення 70B є модель великої мови з відкритим кодом (LLM), розроблена HyperWrite. Ця нова модель представляє підхід до пізнання штучного інтелекту, який може змінити те, як ми взаємодіємо з системами штучного інтелекту та покладаємось на нього в багатьох сферах, від обробки мови до просунутого вирішення проблем.

Використання Відображення-Налаштування, новаторська техніка, яка дозволяє моделі самооцінювати та виправляти власні помилки в режимі реального часу, Reflection 70B швидко піднявся на вершину, перевершивши запатентовані моделі, такі як GPT-4 та Клод 3.5 Сонет у кількох тестах, у тому числі MMLU, МАТИ та HumanEval.

Reflection 70B побудований на міцній основі Лама 3.1-70В архітектури, але механізм самовдосконалення виділяє його. Завдяки ітеративним циклам роздумів, виявлення помилок і вдосконалення вихідних даних модель імітує людське пізнання безпрецедентним чином, розсуваючи межі можливостей ШІ. Як наслідок, Reflection 70B пропонує не тільки неперевершену точність, але й глибше розуміння процесу прийняття рішень, критично важливу функцію для додатків, де прозорість і точність є найважливішими.

Що таке Reflection 70B

За своєю суттю, Reflection 70B побудовано на Відкритий код Meta Лама 3.1-70В Інструктаж моделі. Однак те, що справді вирізняє його, так це його унікальна здатність брати участь у процесі, схожому на людське відображення — звідси і його назва. Ця можливість випливає з техніки під назвою «Відображення-Налаштування”, який дозволяє моделі виявляти та виправляти власні помилки в реальному часі, підвищуючи таким чином свою точність і надійність.

Метт Шумер, генеральний директор HyperWrite, представив Reflection 70B зі сміливою заявою, що це «Найкраща у світі модель штучного інтелекту з відкритим кодом.Але що саме робить цю модель такою особливою, і як вона протиставляється гігантам галузі, таким як GPT-4 і Клод 3.5 Сонет? Давайте досліджувати.

Розуміння налаштування вибіркового відображення: зміна парадигми в навчанні ШІ

Селективний Відображення-Налаштування вводить підхід до налаштування інструкції, де метою є покращення обох якість даних інструкцій і його сумісність із студентська модель під час точного налаштування. Традиційні методи часто зосереджуються на вдосконаленні самих даних, але не звертають уваги на те, наскільки покращені пари даних узгоджуються з цілями навчання моделі. Selective Reflection-Tuning усуває цю прогалину, сприяючи a співпраця вчитель-учень, де модель учителя аналізує дані та надає вдосконалені пари інструкція-відповідь, у той час як студентська модель оцінює та вибирає лише ті вдосконалення, які найкраще відповідають його потребам у навчанні.

Процес складається з двох основних етапів:

Вибіркова інструкція Рефлексія: Модель вчителя розмірковує над інструкцією заданого зразка та генерує вдосконалену пару інструкція-відповідь. Потім модель студента оцінює, чи є ця нова інструкція корисною на основі метрики, що називається Інструкція після складності (IFD). Оцінка IFD оцінює складність вибірки для моделі студента, гарантуючи, що зберігаються лише ті дані, які належним чином заперечують модель.
Вибіркова відповідь Рефлексія: На цьому етапі модель вчителя розмірковує над відповідями, отриманими на першому етапі. Модель студента оцінює ці відповіді за допомогою Перевернута інструкція після труднощів (r-IFD), метрика, яка вимірює, наскільки можливо для студента вивести інструкцію на основі відповіді. Це гарантує, що відповідь не тільки покращує міркування моделі, але й добре узгоджується з наявними знаннями студента.

Застосувавши обидва ІФД та р-ІФД, Selective Reflection-Tuning створює пари даних, які ще є складними реально, що покращує процес налаштування інструкцій без необхідності використання додаткових наборів даних. Результат більше вибірково ефективний та високопродуктивний LLM, що перевершує багато великих моделей.

Архітектура думки: як «мислить» Reflection 70B

Базова архітектура Reflection 70B виводить міркування ШІ на новий рівень, розділяючи процес мислення на кілька етапів. Кожен етап дозволяє моделі вдосконалюватися ітеративно через саморефлексію, подібно до людського пізнання:

Вихідні дані та відповідь: Модель починається з генерації відповіді на задану інструкцію. Цей початковий вихід подібний до стандартних виходів LLM.
Вибіркова інструкція Рефлексія: Після генерації початкової відповіді модель переходить у фаза рефлексії інструкції. Модель вчителя розмірковує над оригінальною інструкцією та пропонує вдосконалення. Потім ці пропозиції оцінюються моделлю студента за допомогою Оцінка IFD щоб визначити, чи нова пара інструкція-відповідь більше підходить для подальшого налаштування.
Вибіркова відповідь Рефлексія: після роздумів над інструкцією модель переходить до уточнення самої відповіді. Тут модель викладача генерує нову відповідь на основі оновленої інструкції. Студентська модель, використовуючи бал r-IFD, оцінює, чи допомагає нова відповідь у виведенні інструкції ефективніше.
Фінальна настройка інструкцій: після вибору найкращої пари інструкція-відповідь вона додається до остаточного набору даних, який використовується для точного налаштування моделі. Цей багатоетапний процес гарантує, що лише найбільш ефективні та узгоджені пари «інструкція-відповідь» включені до даних тонкого налаштування.

Цей довідник - структуроване відображення процес дозволяє користувачам бачити, як модель повторює свій розумовий процес, створюючи прозорість і значно покращуючи точність і узгодженість у складних завданнях.

Порівняльний аналіз Brilliance: Reflection 70B в дії

Використання в Reflection 70B функції Selective Reflection-Tuning не тільки пропонує більш досконалий процес навчання, але й забезпечує найкращу в галузі продуктивність у багатьох тестах. Завдяки механізму ітераційного самооцінювання модель перевершує запатентовані моделі, які значно більші за розміром.

MMLU (Розуміння мови масової багатозадачності): Reflection 70B отримав вражаючі результати 72.2%, що перевершує інші великі моделі з відкритим кодом, такі як LLaMA 2.
Математичний орієнтир: у математичних логічних завданнях модель перевершила GPT-4 і Claude 3.5 із значним відривом, продемонструвавши свою силу в обробці складних сценаріїв вирішення проблем.
IFEval і GSM8K: Reflection 70B також відзначився IFEval, де його узгодженість інструкції-відповіді була оцінена, а в GSM8K, орієнтир для вирішення математичних задач. Налаштування системи самовідбивання дозволило моделі вирішувати складні та нюансовані проблеми ефективніше, ніж її більші конкуренти.

Використовуючи Selective Reflection-Tuning, Reflection 70B продемонстрував це розмір не єдиний фактор в досягненні високої продуктивності. Здатність до самовиправляти та розмірковувати на своїх виходах призвело до сильніше, послідовніше міркування, що дозволяє йому перевершувати моделі з більшою кількістю параметрів.

діаграма порівняння продуктивності sRecycled WizardLM 7B з іншими моделями, такими як Zephyr 7B Beta, Vicuna 13B v1.3 і LLaMA2 Chat 7B. У діаграмі показано високу продуктивність sRecycled WizardLM 7B із детальним розподілом перемог, нічийних результатів і поразок у різних моделях.

Порівняння продуктивності sRecycled WizardLM 7B та інших моделей

Реальні застосування: використання потенціалу Reflection 70B

Виправлення помилок Reflection 70B у реальному часі та прозоре прийняття рішень відкривають нові двері в різних галузях. Нижче наведено кілька реальних випадків використання:

Комплексне рішення проблеми

Сильна сторона Reflection 70B полягає у вирішенні складних проблем. Розглянемо складний математичний запит:

User: "Solve the equation: 2x^2 + 5x - 3 = 0"
Reflection 70B:

<thinking> Applying the quadratic formula...</thinking>
<reflection> A correction in calculation...</reflection>
<output> The solutions are x = 1/2 and x = -3.</output>

Мовний переклад з культурною чутливістю

На відміну від типових моделей перекладу, Reflection 70B адаптує мовні переклади до культурного контексту:

User: "Translate 'It's raining cats and dogs' to French, considering cultural context."
Reflection 70B:

thinking :The literal translation would be "Il pleut des chats et des chiens"...thinking;
reflection: A culturally appropriate translation would be "Il pleut des cordes."reflection;
output: Translation provided.

Покращення налагодження та оптимізації коду

Здатності Reflection 70B виправляти помилки роблять його ідеальним для налагодження та оптимізації коду:

User: "Debug this Python code..."
Reflection 70B: <thinking> Analyzing step by step...</thinking>
<reflection> Identified infinite recursion.</reflection>
<output> Corrected code version with proper recursion.</output>

Розширення конкурентного середовища моделей 70B

Хоча Reflection 70B і набирає обертів, він є частиною ширшої екосистеми з 70 мільярдів моделей параметрів. Ось як він порівнюється з іншими:

Лама Мети 3.1-70B: модель міцної основи, відома для застосування загального призначення.
Клод 2 70B (Антропічний): орієнтований на етичний штучний інтелект, вправний у міркуванні та створенні довгострокового контенту.
GPT-3.5 70B (OpenAI): Полегшена версія GPT-4, що перевершує баланс продуктивності та ефективності.
БЛУМ 70Б: Багатомовна потужна компанія, навчена природним мовам і мовам програмування.
Falcon 70B: відомий ефективністю навчання та висновків.

Ефективне керування моделями 70B: найновіші методи

Ефективно керувати моделями такого розміру – завдання не з легких. Щоб максимізувати продуктивність, ось останні стратегії:

1. Квантування

Зменшення точності ваги моделі допомагає зменшити використання пам’яті та час висновку. 4-розрядне квантування техніки використання BitsAndBytes дозволяють Reflection 70B ефективно працювати на менших GPU.

приклад:

from transformers import AutoModelForCausalLM
model = AutoModelForCausalLM.from_pretrained("meta-llama/Llama-2-70b-hf", load_in_4bit=True)

2. Шардинг моделі

Поділ моделі на кілька GPU (наприклад, використання DeepSpeed Zero) дозволяє працювати з більшими моделями без перевищення пам’яті GPU.

from xformers.ops import memory_efficient_attention
model.attention = memory_efficient_attention

3. Змішана точність і ефективна увага

FlashAttention та xformers зменшити накладні витрати уваги, покращивши час обробки для великих вхідних послідовностей.

from xformers.ops import memory_efficient_attention
model.attention = memory_efficient_attention

4. Розвантаження ЦП і скорочення

Розвантаження ЦП і скорочення менш критичних ваг допомагає запускати моделі на більш скромному апаратному забезпеченні, зберігаючи продуктивність.

from accelerate import cpu_offload
model = cpu_offload(model)

Погляд у майбутнє: майбутнє з Reflection 405B

Наступним рубежем для HyperWrite є розробка Відображення 405B, модель, яка, як очікується, перевершить Reflection 70B як за масштабом, так і за продуктивністю. Ця модель має на меті розширити межі ШІ з відкритим кодом, позиціонуючи себе, щоб кинути виклик навіть найдосконалішим пропрієтарним моделям, таким як GPT-5.

Висновок

через Відображення-Налаштування, Reflection 70B досяг кращої в галузі продуктивності в ключових тестах, зберігаючи при цьому рівень прозорості та точності, який рідко можна побачити в штучному інтелекті з відкритим кодом. Його здатність до самокоригування дає йому явну перевагу, особливо в сферах, які вимагають високого рівня точності, як-от кодування, переклад мови та вирішення складних проблем.

Вгору Далі

Пошук стає розумнішим: як SearchGPT OpenAI змінює гру

Не пропустіть

EAGLE: Дослідження простору дизайну мультимодальних великих мовних моделей із сумішшю кодерів

Ааюш Міттал

Останні п’ять років я провів, занурюючись у захоплюючий світ машинного та глибокого навчання. Моя пристрасть і досвід допомогли мені внести свій внесок у понад 50 різноманітних проектів розробки програмного забезпечення, зосередивши особливу увагу на ШІ/ML. Моя постійна цікавість також привела мене до обробки природної мови, галузі, яку я хочу досліджувати далі.