Connect with us

Всередині Microsoft’s Phi-3 Mini: Легкий AI-модель, який перевершує свої можливості

Штучний інтелект

Всередині Microsoft’s Phi-3 Mini: Легкий AI-модель, який перевершує свої можливості

mm
Phi-3 : A Highly Capable Language Model Locally on Your Phone

Microsoft недавно представила свій останній легкий мовний модель під назвою Phi-3 Mini, який запускає тріо компактних моделей AI, призначених для надання передових можливостей, будучи достатньо малими для ефективної роботи на пристроях з обмеженими обчислювальними ресурсами. При розмірі лише 3,8 мільярдів параметрів Phi-3 Mini є тільки частиною розміру AI-гігантів, таких як GPT-4, проте він обіцяє дорівнювати їхнім можливостям у багатьох ключових областях.

Розробка Phi-3 Mini представляє собою значний етап у напрямку демократизації передових можливостей AI, роблячи їх доступними на ширшому спектрі апаратного забезпечення. Його малий розмір дозволяє йому бути розгорнутим локально на смартфонах, планшетах та інших пристроях краю, подолавши затримку та проблеми конфіденційності, пов’язані з моделями, заснованими на хмарі. Це відкриває нові можливості для інтелектуальних досвідів на пристрої в різних областях, від віртуальних асистентів та розмовного AI до асистентів з кодуванням та завдань зі зрозуміння мови.

4-бітова квантова phi-3-mini, що працює рідно на iPhone
4-бітова квантова phi-3-mini, що працює рідно на iPhone

Під капотом: Архітектура та навчання

У своїй основі Phi-3 Mini є моделлю декодера трансформера, побудованою на подібній архітектурі, як і відкрита модель Llama-2. Вона має 32 шари, 3072 прихованих розмірностей та 32 голови уваги, з довжиною контексту за замовчуванням 4 000 токенів. Microsoft також представила довгу версію контексту під назвою Phi-3 Mini-128K, яка розширює довжину контексту до 128 000 токенів за допомогою технік, таких як LongRope.

Що відрізняє Phi-3 Mini, однак, це його методологія навчання. Натомість ніж покладатися виключно на силу величезних наборів даних та обчислювальної потужності, Microsoft зосередився на створенні високоякісного, густого тренувального набору даних. Ці дані складаються з сильно фільтрованих веб-даних, а також синтетичних даних, згенерованих більшістю мовних моделей.

Процес навчання складається з двох фаз. У першій фазі модель піддається дії різноманітних веб-джерел, спрямованих на навчання її загальним знанням та розумінням мови. Друга фаза поєднує ще більш сильно фільтровані веб-дані з синтетickými даними, призначеними для надання логічних навичок розуміння та спеціалізованої галузі знань.

Microsoft називає цей підхід “оптимальним режимом даних”, відходом від традиційного “оптимального режиму обчислень” або “перенавчувального режиму”, який використовується багатьма великими мовними моделями. Метою є калібрування тренувальних даних для відповідності масштабу моделі, забезпечуючи правильний рівень знань та здатності розуміння, залишаючи достатню ємність для інших можливостей.

Якість нових моделей Phi-3, виміряна за допомогою Massive Multitask Language Understanding (MMLU) бенчмарка
Якість нових моделей Phi-3, виміряна за допомогою Massive Multitask Language Understanding (MMLU) бенчмарка

Цей дані-орієнтований підхід приніс плоди, оскільки Phi-3 Mini досягає видатних результатів у широкому спектрі академічних бенчмарків, часто дорівнюючи або перевершуючи набагато більші моделі. Наприклад, він набирає 69% на бенчмарці MMLU для багатокрокового навчання та розуміння, і 8,38 на бенчмарці MT-bench для математичного розуміння – результати, які є на рівні з моделями, такими як Mixtral 8x7B та GPT-3.5.

Безпека та стійкість

Поряд з вражаючими можливостями Microsoft поставив сильний акцент на безпеку та стійкість у розробці Phi-3 Mini. Модель пройшла суворий післянавчальний процес, що включає наглядане тонке налаштування (SFT) та прямою оптимізацію переваг (DPO).

На етапі SFT використовуються високоякісні дані з різних галузей, включаючи математику, кодування, розуміння, розмови, ідентичність моделі та безпеку. Це допомагає зміцнити можливості моделі в цих областях, а також наділити її сильним почуттям ідентичності та етичного поведінки.

На етапі DPO увага зосереджена на відведенні моделі від нежаданих поведінок шляхом використання відхилених відповідей як негативних прикладів. Цей процес охоплює дані у форматі чату, завдання з розуміння та зусилля щодо відповідальності AI (RAI), забезпечуючи, щоб Phi-3 Mini дотримувався принципів етичної та надійної AI Microsoft.

Щоб ще більше підвищити свій профіль безпеки, Phi-3 Mini був підданий широкому червоному командуванню та автоматизованому тестуванню по десяткам категорій шкоди RAI. Незалежна червона команда в Microsoft ітеративно вивчала модель, визначаючи області для покращення, які потім були вирішені за допомогою додаткових кураторських наборів даних та повторного навчання.

Цей багатограний підхід суттєво зменшив кількість шкідливих відповідей, фактичних неточностей та упереджень, як це демонструється внутрішніми бенчмарками RAI Microsoft. Наприклад, модель демонструє низькі показники дефектів для шкідливого продовження контенту (0,75%) та резюмування (10%), а також низький рівень необґрунтованості (0,603), вказуючи на те, що її відповіді твердо засновані на заданому контексті.

Застосування та випадки використання

З вражаючими можливостями та міцними заходами безпеки Phi-3 Mini підходить для широкого спектра застосувань, особливо в середовищах з обмеженими ресурсами та обмеженнями затримки.

Одним з найбільш перспективних напрямків є розгортання інтелектуальних віртуальних асистентів та розмовного AI безпосередньо на мобільних пристроях. Виконуючи роботу локально, ці асистенти можуть забезпечити миттєві відповіді без потреби у мережевому з’єднанні, а також забезпечити, що конфіденційні дані залишаються на пристрої, вирішуючи проблеми конфіденційності.

Сильні можливості розуміння Phi-3 Mini також роблять його цінним активом для допомоги у кодуванні та математичному вирішенні проблем. Розробники та студенти можуть виграти від локальної завершення коду, виявлення помилок та пояснень, спрощуючи процеси розробки та навчання.

Поза цими застосуваннями універсальність моделі відкриває можливості в таких областях, як розуміння мови, підсумовування тексту та відповіді на питання. Її малий розмір та ефективність роблять її привабливим вибором для впровадження можливостей AI у широкий спектр пристроїв та систем, від розумних домашніх пристроїв до промислової автоматизації.

Погляд у майбутнє: Phi-3 Small та Phi-3 Medium

Хоча Phi-3 Mini є видатним досягненням сам по собі, у Microsoft є ще більші плани щодо сімейства моделей Phi-3. Компанія вже представила два більші моделі, Phi-3 Small (7 мільярдів параметрів) та Phi-3 Medium (14 мільярдів параметрів), які, як очікується, розширять межі можливостей компактних мовних моделей.

Phi-3 Small, наприклад, використовує більш просунуту токенізацію (tiktoken) та механізм уваги, згрупованого запиту, а також новий шар уваги блоків, щоб оптимізувати свій пам’ятний слід, зберігаючи довгий контекст виконання. Він також включає додаткові 10% багатомовних даних, підвищуючи його можливості у розумінні мови та генерації мови на кількох мовах.

Phi-3 Medium, з іншого боку, представляє собою суттєвий крок вперед у масштабі, з 40 шарами, 40 головами уваги та розміром вкладення 5 120. Хоча Microsoft зазначає, що деякі бенчмарки можуть потребувати подальшого доопрацювання суміші тренувальних даних, щоб повністю використати цю збільшену ємність, початкові результати обнадійливі, з суттєвими покращеннями над Phi-3 Small у завданнях, таких як MMLU, TriviaQA та HumanEval.

Обмеження та майбутні напрямки

Незважаючи на свої вражаючі можливості, Phi-3 Mini, як і всі мовні моделі, не позбавлений обмежень. Одним з найбільш помітних слабкостей є його відносно обмежена здатність зберігати фактичні знання, як це свідчить його нижча продуктивність на бенчмарках, таких як TriviaQA.

Однак, Microsoft вважає, що це обмеження можна пом’якшити шляхом доповнення моделі можливостями пошукової системи, що дозволить їй отримувати та розуміти відповідну інформацію за запитом. Цей підхід демонструється у Hugging Face Chat-UI, де Phi-3 Mini може використовувати пошук для покращення своїх відповідей.

Іншою областю для покращення є багатомовні можливості моделі. Хоча Phi-3 Small зробив перші кроки шляхом включення додаткових багатомовних даних, подальша робота потрібна для повного розблокування потенціалу цих компактних моделей для міжмовних застосувань.

Поглядывая у майбутнє, Microsoft зобов’язаний продовжувати просування сімейства моделей Phi, вирішуючи їх обмеження та розширюючи їх можливості. Це може включати подальші доопрацювання тренувальних даних та методології, а також дослідження нових архітектур та технік, спеціально розроблених для компактних, високопродуктивних мовних моделей.

Висновок

Phi-3 Mini від Microsoft представляє собою суттєвий крок вперед у демократизації передових можливостей AI. Надавши передові можливості у компактному, ресурсо-ефективному пакеті, він відкриває нові можливості для інтелектуальних досвідів на пристрої у широкому спектрі застосувань.

Інноваційний підхід до навчання моделі, який підкреслює високоякісні, густі тренувальні дані над силою обчислень, став на вагу, дозволивши Phi-3 Mini перевершувати свої можливості. У поєднанні з міцними заходами безпеки та тривалими зусиллями щодо розвитку, сімейство моделей Phi-3 готується зіграти важливу роль у формуванні майбутнього інтелектуальних систем, роблячи AI більш доступним, ефективним та надійним, ніж будь-коли раніше.

Як галузь технологій продовжує розширювати межі можливого з AI, зобов’язання Microsoft щодо легких, високопродуктивних моделей, таких як Phi-3 Mini, представляє собою свіжий відхід від традиційної мудрості “більше – краще”. Демонструючи, що розмір не є всім, Phi-3 Mini має потенціал надихнути нову хвилю інновацій, спрямованих на максимізацію цінності та впливу AI через інтелектуальну кураторську обробку даних, вдумливу конструкцію моделі та відповідальну практику розвитку.

Я провів останні п'ять років, занурючись у захопливий світ машинного навчання та глибокого навчання. Моя пристрасть та експертиза привели мене до внеску у понад 50 різноманітних проектів програмної інженерії, з особливим акцентом на AI/ML. Моя триваюча цікавість також привела мене до обробки природної мови, галузі, яку я бажаю дослідити далі.