Зв'язатися з нами

Розвиток малих моделей міркування: чи може компактний штучний інтелект відповідати міркуванню на рівні GPT?

Штучний Інтелект

Розвиток малих моделей міркування: чи може компактний штучний інтелект відповідати міркуванню на рівні GPT?

mm

В останні роки галузь ШІ була захоплена успіхом великих мовних моделей (LLM). Спочатку розроблені для обробки природної мови, ці моделі перетворилися на потужні інструменти міркування, здатні вирішувати складні проблеми за допомогою людського покрокового процесу мислення. Однак, незважаючи на їх виняткову здатність міркувати, LLM мають значні недоліки, включаючи високі обчислювальні витрати та повільну швидкість розгортання, що робить їх непрактичними для реального використання в середовищах з обмеженими ресурсами, як-от мобільні пристрої чи периферійні обчислення. Це призвело до зростаючого інтересу до розробки менших, більш ефективних моделей, які можуть запропонувати подібні можливості міркування при мінімізації витрат і вимог до ресурсів. У цій статті досліджується розвиток цих невеликих моделей міркування, їхній потенціал, виклики та наслідки для майбутнього ШІ.

Зміна перспективи

Протягом більшої частини новітньої історії штучного інтелекту ця галузь дотримувалася принципу «законів масштабування», який передбачає, що продуктивність моделі передбачувано покращується зі збільшенням обсягу даних, обчислювальної потужності та розміру моделі. Хоча такий підхід призвів до створення потужних моделей, він також призвів до значних компромісів, включаючи високі витрати на інфраструктуру, вплив на навколишнє середовище та проблеми із затримкою. Не всі програми вимагають усіх можливостей масивних моделей із сотнями мільярдів параметрів. У багатьох практичних випадках, таких як помічники на пристроях, охорона здоров'я та освіта, менші моделі можуть досягти подібних результатів, якщо вони можуть ефективно міркувати.

Розуміння міркувань у ШІ

Міркування у ШІ стосується здатності моделі слідувати логічним ланцюгам, розуміти причину та наслідок, виводити наслідки, планувати кроки процесу та виявляти суперечності. Для мовних моделей це часто означає не лише отримання інформації, але й маніпулювання інформацією та її виведення за допомогою структурованого покрокового підходу. Такий рівень міркування зазвичай досягається шляхом точного налаштування LLM для виконання багатоетапних міркувань, перш ніж дійти до відповіді. Хоча ці методи ефективні, вони вимагають значних обчислювальних ресурсів і можуть бути повільними та дорогими у розгортанні, що викликає занепокоєння щодо їхньої доступності та впливу на навколишнє середовище.

Розуміння малих моделей міркування

Малі моделі міркування мають на меті відтворити можливості міркування великих моделей, але з більшою ефективністю з точки зору обчислювальної потужності, використання пам’яті та затримки. Ці моделі часто використовують техніку, яка називається дистиляція знань, де менша модель («учень») вчиться у більшої, попередньо навченої моделі («вчителя»). Процес дистиляції передбачає навчання меншої моделі на даних, згенерованих більшою, з метою передачі здатності міркувати. Потім модель студента налаштовується для покращення її продуктивності. У деяких випадках навчання зі спеціалізованими функціями винагороди, що стосуються предметної області, застосовано для подальшого покращення здатності моделі виконувати міркування щодо конкретного завдання.

Підйом і прогрес малих моделей міркування

Помітною віхою в розробці малих моделей міркування став випуск DeepSeek-R1. Незважаючи на те, що він був навчений на відносно скромному кластері старіших графічних процесорів, DeepSeek-R1 досяг продуктивності, порівнянної з більшими моделями, такими як o1 OpenAI, на таких тестах, як MMLU та GSM-8K. Це досягнення призвело до перегляду традиційного підходу до масштабування, який припускав, що більші моделі за своєю суттю є кращими.

Успіх DeepSeek-R1 можна пояснити його інноваційним навчальним процесом, який поєднував широкомасштабне навчання з підкріпленням, не покладаючись на контрольовану точну настройку на ранніх етапах. Це нововведення призвело до створення DeepSeek-R1-Zero, модель, яка продемонструвала вражаючі здібності до міркування порівняно з великими моделями міркування. Подальші вдосконалення, такі як використання даних холодного запуску, покращили узгодженість моделі та виконання завдань, особливо в таких галузях, як математика та код.

Крім того, методи дистиляції виявилися вирішальними для розробки менших, більш ефективних моделей із більших. Наприклад, DeepSeek випустила дистильовані версії своїх моделей із розмірами від 1.5 до 70 мільярдів параметрів. Використовуючи ці моделі, дослідники навчили відносно набагато меншу модель DeepSeek-R1-Distill-Qwen-32B який перевершив o1-mini від OpenAI через різні контрольні показники. Тепер ці моделі можна розгортати зі стандартним апаратним забезпеченням, що робить їх більш життєздатними варіантами для широкого спектру застосувань.

Чи можуть малі моделі відповідати міркуванню на рівні GPT

Щоб оцінити, чи можуть моделі малого міркування (SRM) зрівнятися з потужністю міркування великих моделей (LRM), таких як GPT, важливо оцінити їхню продуктивність за стандартними тестами. Наприклад, модель DeepSeek-R1 забив близько 0.844 на Тест MMLU, порівняно з більшими моделями, такими як o1. На GSM-8K набір даних, який зосереджується на математиці початкової школи, дистильована модель DeepSeek-R1 досягнутий продуктивність найвищого рівня, що перевершує як o1, так і o1-mini.

У завданнях кодування, наприклад, на LiveCodeBench та CodeForces, дистильовані моделі DeepSeek-R1 виконується подібно до o1-mini та GPT-4o, демонструючи сильні можливості міркування в програмуванні. Однак більші моделі все ще мають край у завданнях, які вимагають ширшого розуміння мови або обробки довгих контекстних вікон, оскільки менші моделі, як правило, більш специфічні для завдань.

Незважаючи на свої сильні сторони, невеликі моделі можуть мати проблеми з розширеними завданнями міркування або коли стикаються з даними, що не розповсюджуються. Наприклад, у моделюванні шахів LLM DeepSeek-R1 допускав більше помилок, ніж більші моделі, що свідчить про обмеження його здатності зберігати фокус і точність протягом тривалого часу.

Компроміси та практичні наслідки

Компроміси між розміром моделі та продуктивністю є критичними при порівнянні SRM з LRM рівня GPT. Менші моделі вимагають менше пам’яті та обчислювальної потужності, що робить їх ідеальними для периферійних пристроїв, мобільних додатків або ситуацій, коли потрібне офлайн-виведення. Ця ефективність призводить до зниження експлуатаційних витрат, а такі моделі, як DeepSeek-R1, досягають 96% більш дешевий працювати, ніж більші моделі, такі як o1.

Однак це підвищення ефективності супроводжується певними компромісами. Менші моделі, як правило, налаштовані для конкретних завдань, що може обмежити їхню універсальність порівняно з більшими моделями. Наприклад, у той час як DeepSeek-R1 перевершує математику та кодування, він не вистачає мультимодальні можливості, такі як здатність інтерпретувати зображення, з якими можуть працювати більші моделі, такі як GPT-4o.

Незважаючи на ці обмеження, практичне застосування малих моделей міркування величезне. У сфері охорони здоров’я вони можуть використовувати діагностичні інструменти, які аналізують медичні дані на стандартних лікарняних серверах. В освіті їх можна використовувати для розробки персоналізованих систем навчання, забезпечуючи покроковий зворотний зв’язок зі студентами. У наукових дослідженнях вони можуть допомогти з аналізом даних і перевіркою гіпотез у таких галузях, як математика та фізика. Відкритий вихідний код таких моделей, як DeepSeek-R1, також сприяє співпраці та демократизує доступ до штучного інтелекту, дозволяючи невеликим організаціям користуватися перевагами передових технологій.

Bottom Line

Еволюція мовних моделей у менші моделі міркування є значним прогресом у ШІ. Хоча ці моделі ще не повністю відповідають широким можливостям великих мовних моделей, вони пропонують ключові переваги в ефективності, економічній ефективності та доступності. Завдяки досягненню балансу між потужністю міркування та ефективністю використання ресурсів менші моделі відіграватимуть вирішальну роль у різних програмах, роблячи штучний інтелект більш практичним та стійким для використання в реальному світі.

Доктор Техсін Зія є штатним доцентом Університету COMSATS Ісламабад, має ступінь доктора філософії зі штучного інтелекту у Віденському технологічному університеті, Австрія. Спеціалізуючись на штучному інтелекті, машинному навчанні, науці про дані та комп’ютерному зорі, він зробив значний внесок публікаціями в авторитетних наукових журналах. Доктор Техсін також керував різними промисловими проектами як головний дослідник і працював консультантом зі штучного інтелекту.