Штучний інтелект

Mistral AI: встановлення нових стандартів у відкритому просторі за межами Llama2

mm
Mistral 7B LLM

Багатомодельні великі мови (LLM) останнім часом зайняли центральну сцену, завдяки видатним виконавцям, таким як ChatGPT. Коли Meta представила свої моделі Llama, це сприяло відродженню інтересу до відкритих LLM. Метою було створити доступні, відкриті LLM, які були б такими ж хорошими, як топові моделі, такі як GPT-4, але без високої ціни або складності.

Ця суміш доступності та ефективності не тільки відкрила нові можливості для дослідників і розробників, але й створила сцену для нової ери технологічних досягнень у галузі обробки природної мови.

Нещодавно стартапи з генерації штучного інтелекту отримали фінансування. Разом підняли 20 мільйонів доларів, щоб сформувати відкритий штучний інтелект. Anthropic також підняв 450 мільйонів доларів, а Cohere, партнеруючи з Google Cloud, отримав 270 мільйонів доларів у червні цього року.

Введення в Mistral 7B: Розмір та Доступність

mistral AI

Mistral AI, розташований у Парижі і заснований випускниками Google’s DeepMind і Meta, оголосив про свою першу велику мовну модель: Mistral 7B. Цю модель можна легко завантажити будь-хто з GitHub і навіть через 13,4-гігабайтний торрент.

Ця компанія змогла забезпечити рекордне фінансування ще до виходу продукту. Перша модель Mistral AI з 7 мільярдами параметрів перевершує продуктивність Llama 2 13B у всіх тестах і перевершує Llama 1 34B у багатьох метриках.

У порівнянні з іншими моделями, такими як Llama 2, Mistral 7B забезпечує подібні або кращі можливості, але з меншою обчислювальною складністю. Хоча фундаментальні моделі, такі як GPT-4, можуть досягти більшого, вони мають вищу ціну і не так користувацькі, оскільки вони в основному доступні через API.

Коли мова йде про завдання кодування, Mistral 7B дає CodeLlama 7B можливість конкурувати. Крім того, він компактний enough на 13,4 ГБ, щоб запускатися на стандартних машинах.

Крім того, Mistral 7B Instruct, налаштований спеціально для інструктивних наборів даних на Hugging Face, показав хорошу продуктивність. Він перевершує інші 7B-моделі на MT-Bench і виступає на рівні з 13B-чат-моделями.

Бенчмаркінг Продуктивності

У детальному аналізі продуктивності Mistral 7B був виміряний проти моделей Llama 2. Результати були ясними: Mistral 7B суттєво перевершив Llama 2 13B у всіх бенчмарках. Насправді, він відповідав продуктивності Llama 34B, особливо виділявся у коді та розумових бенчмарках.

Бенчмарки були організовані у кілька категорій, таких як Розуміння Загального Сенсу, Загальні Знання, Читання та Розуміння, Математика та Код, серед інших. Особливо примітним спостереженням було те, що Mistral 7B продемонстрував продуктивність, подібну до Llama 2-моделі у три рази більший за розміром, що свідчить про потенційні економії пам’яті та підвищення пропускної здатності. Однак у бенчмарках знань Mistral 7B відповідав Llama 2 13B, що, ймовірно, пояснюється обмеженнями параметрів, які впливають на стиснення знань.

Що робить модель Mistral 7B кращою за більшість інших мовних моделей?

Упрощення Механізмів Уваги

Хоча нюанси механізмів уваги є технічними, їхнє основне ідея відносно проста. Припустимо, ви читаєте книгу і виділяєте важливі речення; це аналогічно тому, як механізми уваги “виділяють” або надають важливість конкретним даних у послідовності.

У контексті мовних моделей ці механізми дозволяють моделі зосередитися на найбільш важливих частинах вхідних даних, забезпечуючи, щоб вихід був узгодженим і контекстно точним.

У стандартних трансформерах розрахунки уваги здійснюються за формулою:

Transformers attention Formula

Transformers Attention Formula

Формула для цих балів включає важливий крок – матричне множення Q і K. Виклик полягає в тому, що при зростанні довжини послідовності обидві матриці розширюються відповідно, що призводить до обчислювально інтенсивного процесу. Ця проблема масштабованості є однією з основних причин, чому стандартні трансформери можуть бути повільними, особливо при роботі з довгими послідовностями.

transformerМеханізми уваги допомагають моделям зосередитися на конкретних частинах вхідних даних. Зазвичай ці механізми використовують “голови”, щоб керувати цією увагою. Чим більше голів, тим більш конкретна увага, але це також стає більш складним і повільним. Глибше про трансформери та механізми уваги тут.

Багатократна увага (MQA) прискорює процес, використовуючи один набір “ключ-значення” голів, але іноді жертвує якістю. Тепер ви можете запитати, чому не поєднати швидкість MQA з якістю багатократної уваги? Саме тут з’являється Групова увага (GQA).

Групова Увага (GQA)

Grouped-query attention

Групова увага

GQA є компромісним рішенням. Замість використання лише однієї або декількох “ключ-значення” голів, воно групує їх. Таким чином, GQA досягає продуктивності, близької до детальної багатократної уваги, але зі швидкістю MQA. Для моделей, таких як Mistral, це означає ефективну продуктивність без суттєвої жертви якості.

Слайдова Увага (SWA)

longformer transformers sliding window

Слайдова вікно є ще одним методом обробки послідовностей уваги. Цей метод використовує фіксовану вікно уваги навколо кожного токену в послідовності. З кількома шарами, що накладають це вікно уваги, верхні шари в кінцевому підсумку отримують ширший погляд, охоплюючи інформацію з усієї вхідної послідовності. Цей механізм аналогічний рецептивним полям, спостережуваним у Конволюційних Нейронних Мережах (CNN).

З іншого боку, “дилатоване слайдове вікно уваги” моделі Longformer, яке концептуально подібне до слайдового методу, обчислює лише кілька діагоналей матриці . Це призводить до того, що використання пам’яті зростає лінійно, а не квадратично, роблячи цей метод більш ефективним для довгих послідовностей.

Прозорість Mistral AI проти Безпеки у Децентралізації

У своєму оголошенні Mistral AI також підкреслив прозорість, заявивши: “Немає трюків, немає власних даних.” Але в той же час їхня єдина доступна модель на даний момент – ‘Mistral-7B-v0.1’ – є попередньо тренованою базовою моделлю, тому вона може генерувати відповідь на будь-яке запитання без модерації, що викликає потенційні проблеми з безпекою. Хоча моделі, такі як GPT і Llama, мають механізми для визначення часу відповіді, повністю децентралізована природа Mistral може бути використана зловмисниками.

Однак децентралізація великих мовних моделей має свої переваги. Хоча деякі можуть її використати неправильно, люди можуть використовувати її силу для суспільного добра та надання інтелекту доступним усім.

Гнучкість Розгортання

Одним з основних моментів є те, що Mistral 7B доступний під ліцензією Apache 2.0. Це означає, що немає жодних серйозних бар’єрів для використання – незалежно від того, чи використовуєте ви його для особистих цілей, великої корпорації чи навіть державного органу. Вам просто потрібна відповідна система для запуску або вам потрібно інвестувати у хмарні ресурси.

Хоча є інші ліцензії, такі як простіша ліцензія MIT і кооперативна ліцензія CC BY-SA-4.0, яка вимагає вказівки авторства і подібної ліцензії для похідних робіт, ліцензія Apache 2.0 забезпечує міцну основу для великомасштабних проектів.

Фінальні Думки

Поява відкритих великих мовних моделей, таких як Mistral 7B, означає суттєвий зсув у галузі штучного інтелекту, роблячи високоякісні мовні моделі доступними для ширшої аудиторії. Інноваційні підходи Mistral AI, такі як Групова увага і Слайдова увага, обіцяють ефективну продуктивність без суттєвої жертви якості.

Хоча децентралізована природа Mistral створює певні проблеми, її гнучкість і відкрита ліцензія підкреслюють потенціал для демократизації штучного інтелекту. По мірі розвитку ландшафту, увагу буде прикуто до балансування сили цих моделей з етичними міркуваннями та механізмами безпеки.

Що далі для Mistral? Модель 7B був лише початком. Команда планує запустити ще більші моделі скоро. Якщо ці нові моделі відповідають продуктивності 7B, Mistral може швидко піднятися до рівня одного з лідерів галузі, все ще у свій перший рік.

Я провів останні п'ять років, занурючись у захопливий світ машинного навчання та глибокого навчання. Моя пристрасть та експертиза привели мене до внеску у понад 50 різних проектів програмної інженерії, з особливим акцентом на AI/ML. Моя тривала цікавість також привела мене до природної обробки мови, галузі, яку я бажаю дослідити далі.